SEO

Что такое robots.txt для SEO

paveltsarcov | 06.11.2017

Каждый начинающий SEO-специалист при оптимизации сайта сталкивается с необходимостью создания файла robots.txt. О том, какая роль этого файла в SEO-продвижении, как его создавать и использовать пойдет речь в данной статье.

При краулинге сайта поисковый бот сразу ищет файл robots.txt и следует его инструкциям. Сам файл представлен в текстовом формате UTF-8 и находится в корневой папке сайта. Изучив данный файл, поисковый бот сможет определить, какие страницы разрешены для сканирования, а какие нет. Файл роботс тхт позволит поисковику соблюдать рекомендации по извлечению информации с сайта, например, временной интервал кроулинга ресурса.

Для чего robots.txt?

Чтобы закрыть от поисковой системы конфиденциальные файлы, а также контент пользователей, веб-мастера прописывают запрет индексации на отдельные страницы сайта. При прохождении роботом страниц сайта нагружается сервер ресурса. В данном случае от индексации закрываются служебные и непопулярные страницы сайта (под непопулярными подразумеваются страницы с нулевой или же низкой частотой запроса). Также от робота закрывают админку сайта. Поэтому чаще всего роботс.тхт используется для сохранения конфиденциальности в сети и реже для избегания перегрузки сервера.

Важно понимать, что на закрытые от индексации страницы не стоит ставить внешние или внутренние ссылки. Поисковый бот может перейти на страницу через ссылку разрешенной страницы, невзирая на запрет.

Как создать robots.txt?

Создать файл robots.txt можно в любом текстовом редакторе (например, Sublime). Важно заполнить составные параметры, придерживаясь которых бот будет индексировать сайт.

Параметры в robots.txt

User-agent. Параметр указывает название поискового робота, для которого предназначен документ. Основной робот поисковой системы Google – это Googlebot, а бот YandexBot – поисковика Яндекс. Можно открыть доступ всем возможным поисковым роботам, которые попадают на сайт. Для этого после параметра User-agent нужно прописать нужно прописать название бота. Пример: User-agent: Googlebot.

Disallow. Параметр robots.txt: disallow позволяет открывать или закрывать для индексации страницы сайта. Чтобы закрыть весь сайт от сканирования требуется прописать: “/”. А чтобы закрыть отдельную страницу или папку, нужно прописать путь этого каталога после слеша: “Disallow: /home/“. Для открытия всех страниц сайта под индексацию прописывается пробел в параметре. Для закрытия/открытия индексирования определенного типа файлов используется прописывается путь к данному файлу: Disallow: /home/myfile.php.

Allow. В данном параметре прописываются страницы и файлы, которые робот может краулить в первую очередь. Для этого прописывается путь к страницам или файлам: “/ua/gallery/page-1”. Важно помнить, что в параметрах allow и disallow нужно указывать каждый путь к каждой папке и/или странице отдельно по порядку прохождения роботом директорий сайта.

Host. Необходимо прописать адрес сайта, по которому будет переходить робот при индексации. Если при разных адресах доступны одинаковые версии сайта, например, с www и без, то необходимо указать точный адрес. Тогда бот будет индексировать нужный ресурс. Адрес сайта указывается с https://, но если сайт еще не успел перейти на новый формат, то http:// не прописывается. Это выглядит так: Host: www.idg.net.ua.

Sitemap. В данном параметре необходимо указывать путь на карту сайта. Sitemap – это файл, в котором хранятся все страницы сайта. Это необходимо, чтобы робот мог при каждой новой сессии индексации проверять сайт на наличие новых страниц и вносить их в индекс. Пример: Sitemap: http://www.idg.net.ua/sitemap.xml.

Crawl-delay. Используя данный параметр, возможно избежать нагрузки на сервер. Он регламентирует время загрузки страниц сайта при сканировании их роботом. Параметр характеризуется секундами. При индексации страниц поисковый робот будет с точной поочередностью проходить все страницы сайта, не создавая ложную нагрузку на слабый сервер.

Какие результаты получает поисковый робот при работе через robots.txt?

Запрет на доступ к индексации всех страниц сайта.
Разрешение на сканирование только избранных страниц.
Доступ к индексации отдельных страниц сайта.

Результаты прохождения индексации

После того как робот прошелся по разрешенным страницам, результат виден в Webmaster Tools. Если проверка прошла успешно и со страницей все в порядке, то она будет внесена в индекс.

Если к содержимому сайта найдена ошибка, то их необходимо исправить. Причиной может быть долгая загрузка страницы, невозможность перейти по переадресации сайта на другую страницу (неправильно настроен 301 редирект), неверный ответ сервера. В таких случаях в Webmaster Tools можно найти перечень всех ошибок за период сканирования ботом страниц сайта. Это могут быть 404, 505, 503 ошибки.

Тестируем файл robots.txt

Чтобы убедиться в работающем роботс.тхт, необходимо ввести исходный код файла в строку проверки инструментов веб-мастера той поисковой системы, в которой продвигается сайт. При наличии ошибок или неточностей поисковик укажет на причину с детальной инструкцией.

Важно понимать, что файл robots.txt является лишь рекомендацией поисковому роботу по индексации сайта. Как показывает практика, поисковые роботы могут индексировать скрытые страницы, а также различные файлы и код, который относится к front-end части сайта.

Для наглядного примера можно ознакомиться с файлом robots.txt на примере Google: https://www.google.com/robots.txt.