Что такое robots.txt
Robots.txt – это файл, который размещается в корневой папке сайта, и содержит указания и рекомендации для роботов поисковых систем относительно индексации.
Наличие файла необходимо, так как в некоторых случаях роботам не стоит сканировать:
- страницы с личными данными посетителей;
- зеркала сайта;
- страницы, предназначенные для внесения информации;
- страницы результатов поиска.
Когда робот поисковых систем обрабатывает прописанные правила, он получает определенные инструкции. Например:
- сканировать частично, то есть отдельные страницы и разделы;
- сканировать все, в данном случае отсутствуют ограничения;
- ничего не сканировать. Речь о полном запрете доступа к содержимому сайта.
Как создать файл и где разместить
Файл формируется в текстовом редакторе в формате .txt. После того, как прописаны все необходимые директивы, остается добавить robots.txt в корневой каталог. Доступ к файлу должен предоставляться по адресу домен/robots.txt.
Основные и дополнительные директивы
Существуют конкретные требования к составлению ограничений: прописываются основные и дополнительные директивы. При формировании файла необходимо:
- Прописать User-agent. Указывается робот (к примеру, для поисковиков Яндекс или Google), для которого будут действовать правила индексирования;
- Указать правила Disallow. Перечисляются элементы, к которым доступ запрещается.
Дополнительно прописывается:
- Директива Allow. Принудительно открывается доступ к элементам сайта для их дальнейшего индексирования;
- Sitemap. Указывает путь к файлу XML Sitemap. Роботу дается указание индексировать все URL, находящиеся по адресу http://site.com/sitemap.xml.
Выборочная индексация позволяет исключать из выдачи ненужные страницы, которые препятствуют продвижению проекта.