Картинка к статье о настройке robots txt в Joomla

В свете частых вопросов, а также недавно прогремевших скандалов об индексации поисковыми системами запрещённых в robots.txt документов, хочу поделиться с Вами, уважаемые веб мастера и админы своими SEO наблюдениями относительно поисковых систем, а так же о наболевшем: робот.тхт

Если Вас интересует как собрать компьютер собственными руками - приглашаем Вас посетить ресурс Domcomputer.ru.

В стандартной поставке Джумла 2.5.х, как и в третьей линейке, идёт следующий файл robots.txt:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /cli/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

В нём, диррективой "Disallow:", запрещены к индексации все стандартные каталоги всеми "цивилизованными" роботами ( Дирректива User-agent: * ), но разрешено индексировать ссылки на "Печать", "Пагинация", "Отправить по почте", "RSS - ленты", "Поиск", "Регистрация", "Восстановление пароля" и "Восстановление логина", что не есть хорошо для продвижения в выдаче поисковых систем.

Если его несколько доработать, то получим для Яндекса (который ИМХО нарушает множество Дирректив и является НЕ цивилизованной поисковой системой), следующий файл:

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /cli/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

Host: site.ru
Sitemap: http://site.ru/index.php?option=com_xmap&view=xml&id=1

,где

User-agent: Yandex - Дирректива для робота Яндекса
Disallow: /administrator/ - не индексировать дирректорию /administrator/;
Disallow: /cache/ - не индексировать кеш;
Disallow: /components/ - не индексировать дирректорию с компонентами;
Disallow: /cli/ - не индексировать дирректорию с библиотеками;
Disallow: /images/ - не индексировать дирректорию с картинками, если хотите: можно убрать запрет и тогда все картинки будут доступны для индексации, что значительно повысит приток посетителей на Ваш проект;
Disallow: /includes/ - не индексировать дирректорию /includes/;
Disallow: /installation/ - не индексировать дирректорию /installation/, после инсталяции Joomla, она автоматически удаляется, но если вы пользуетесь каким-либо компонентом бэкапа сайта... Ради безопасности Обязательно оставьте этот запрет;
Disallow: /language/ - не индексировать дирректорию с языковыми файлами;
Disallow: /libraries/ - не индексировать библиотеки ( имеется в виду системные );
Disallow: /logs/ - не индексировать логи отказов системы ( ИМХО: на рабочем сайте желательно вообще отключить плагины "Логов" и "Отладки" но об этом в другое время и в другой статье );
Disallow: /media/ - не индексировать дирректорию /media/;
Disallow: /modules/ - не индексировать дирректорию модулей Жумла;
Disallow: /plugins/ - не индексировать дирректорию плагинов;
Disallow: /templates/ - не индексировать дирректорию шаблонов фронт энда сайта;
Disallow: /tmp/ - не индексировать дирректорию с временными файлами;
Disallow: /*mailto* - запрет индексирования "Отправить по почте" ( борьба с дублированием контента );
Disallow: /*start* - запрет индексирования "Пагинации": разбиения на страницы ( борьба с дублированием контента );
Disallow: /*print* - запрет индексирования страниц "Печати" ( борьба с дублированием контента );
Disallow: /*feed* - запрет индексирования "RSS - лент" ( борьба с дублированием контента );
Disallow: /*search* - запрет индексирования "Поиска" на сайте ( борьба с дублированием контента );
Disallow: /*users* - запрет индексирования "Регистрации" на сайте ( борьба с дублированием контента );

Host: site.ru - ВНИМАНИЕ Дирректива "Host:" обязательна только для Яндекса! Самое главное: если Ваш домен ( домен вашего сайта находится в зоне второго уровня и вы зарегистрировали его как www.site.ru ) то добавляйте его в Яндекс Вебмастере так же "www.site.ru" и в robots.txt: Host: www.site.ru
Sitemap: http://site.ru/index.php?option=com_xmap&view=xml&id=1, - ссылка сгенерированна компонентом карты сайта XMap 2.3.0
Важное замечание: каждая директива должна начинаться с новой строки, пробелы ( переходы каретки ) допустимы только между Директивами для разных роботов и между "Disallow:" и "Host:" для поисковой системы Яндекс!

Знак "*" до и после диррективы означает любое количество символов до и после соответственно, Например: Disallow: /*feed* - запрещает индексацию всех ссылок, содержащих слово "feed"

Для всех же цивилизованных роботов ( ИМХО это Google, MSN, Yahoo - соблюдают все диррективы ) код будет следующим:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /cli/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

Итак, получаем роботс тхт следующего вида:

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /cli/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

Host: site.ru
Sitemap: http://site.ru/index.php?option=com_xmap&view=xml&id=1

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /cli/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

Если же Вы разрабатываете свой сайт прям на хостинге - обязательно закройте его от идексации роботами, удалив все диррективы и прописав запрет так:

User-agent: *
Disallow: /

и НЕ забыв вернуть файл на место с началом эксплуатации проекта!

В любом случае, после корректировки robots.txt, зайдите в Яндекс Вебмастер и проверьте все основные URL своего сайта на предмет запрета от индексации.

Устали читать!? Отдохните, просмотрев прикольный видео ролик о Суровом СЕО:

Желаю удачного продвижения и заработков!
С уважением, Владимир.