robots txt для сайтах — как правильно настроить и не допустить ошибок

robots txt для сайтах — обязательный инструмент для управления индексацией и сканированием страниц поисковыми ботами. Правильно настроенный файл robots.txt помогает экономить бюджет сканирования, защищать служебные ресурсы и ускорять попадание в индекс важных страниц.

Что такое robots.

robots.txt — это простой текстовый файл в корне сайта (https://example.com/robots.txt), который содержит команды для поисковых роботов: кому разрешено или запрещено сканировать определённые разделы. Это рекомендация для роботов, а не жесткий запрет (кроме случаев, когда страницу дополнительно закрывают паролем или используют X‑Robots‑Tag/noindex).

Основные директивы

User-agent: имя робота (например, Googlebot, Yandex)
Disallow: запрещённые к сканированию пути
Allow: разрешённые пути (особенно полезно при частичном разрешении в блоках)
Sitemap: путь к карте сайта
Crawl-delay: задержка между запросами (поддерживается не всеми системами)
Host: предпочитаемый хост (используется Яндексом)

Примеры robots.txt для сайтов

1) Разрешить всё:

User-agent: *

Disallow:

2) Запретить весь сайт:

User-agent: *

Disallow: /

3) Блокировка админки (на примере WordPress):

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

4) Указать карту сайта и хост:

User-agent: *

Disallow:

Sitemap: https://example.com/sitemap.xml

Host: example.com

Wildcard и окончание строки

Большинство крупных поисковых систем поддерживают метасимволы:

* — любое количество символов

$ — конец строки

Пример: Disallow: /private/*.pdf$ — блокирует все PDF в /private.

Чего robots.txt не умеет

Нельзя гарантированно запретить индексацию страницы, если на неё есть внешние ссылки — роботы могут показать URL без содержимого.

Директивы noindex в robots.txt официально не поддерживаются Google; для этого используются meta robots или X‑Robots‑Tag в заголовках HTTP.

Лучшие практики при настройке robots txt для сайтах

Размещайте файл в корневой директории сайта (https://site.com/robots.txt).
Не добавляйте в robots.txt страницы с ответом 404/301/302.
Не блокируйте CSS и JS без необходимости — это мешает рендерингу страниц и может ухудшить SEO.
Указывайте Sitemap: — это облегчает индексирование (особенно для больших сайтов).
Используйте отдельные правила для крупных ботов (Googlebot и Yandex может требовать разных настроек).
Тестируйте файл через Google Search Console и Яндекс.Вебмастер — они покажут ошибки и заблокированные URL.
Для динамических сайтов генерируйте robots.txt автоматически при изменении структуры.

Типичные ошибки

Блокировка важных ресурсов (CSS/JS), из‑за чего страница плохо индексируется.
Несовпадение с каноническими URL (http/https, www/без www).
Слишком сложные правила без комментариев — сложно отлаживать.
Публикация приватных данных, которые защищены только robots.txt (это небезопасно — файл публичен).

Контроль и мониторинг

Отправьте robots.txt в Search Console и Яндекс.Вебмастер.
Анализируйте логи сервера: как часто боты приходят, какие страницы запрашивают и какие получают 403/404.
Проверяйте отчёты об индексировании и ошибки сканирования.

robots txt для сайтах — простой, но мощный инструмент управления сканированием. Он помогает экономить ресурсы, защищать служебные разделы и ускорять индексацию важных страниц при условии правильной настройки. Не забывайте сочетать robots.txt с корректными мета-тегами, картой сайта и HTTPS.