robots txt для сайтах — обязательный инструмент для управления индексацией и сканированием страниц поисковыми ботами. Правильно настроенный файл robots.txt помогает экономить бюджет сканирования, защищать служебные ресурсы и ускорять попадание в индекс важных страниц.

Что такое robots.

robots.txt — это простой текстовый файл в корне сайта (https://example.com/robots.txt), который содержит команды для поисковых роботов: кому разрешено или запрещено сканировать определённые разделы. Это рекомендация для роботов, а не жесткий запрет (кроме случаев, когда страницу дополнительно закрывают паролем или используют X‑Robots‑Tag/noindex).

Основные директивы

  • User-agent: имя робота (например, Googlebot, Yandex)
  • Disallow: запрещённые к сканированию пути
  • Allow: разрешённые пути (особенно полезно при частичном разрешении в блоках)
  • Sitemap: путь к карте сайта
  • Crawl-delay: задержка между запросами (поддерживается не всеми системами)
  • Host: предпочитаемый хост (используется Яндексом)

Примеры robots.txt для сайтов

1) Разрешить всё:

User-agent: *

Disallow:

2) Запретить весь сайт:

User-agent: *

Disallow: /

3) Блокировка админки (на примере WordPress):

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

4) Указать карту сайта и хост:

User-agent: *

Disallow:

Sitemap: https://example.com/sitemap.xml

Host: example.com

Wildcard и окончание строки

Большинство крупных поисковых систем поддерживают метасимволы:

* — любое количество символов

$ — конец строки

Пример: Disallow: /private/*.pdf$ — блокирует все PDF в /private.

Чего robots.txt не умеет

  • Нельзя гарантированно запретить индексацию страницы, если на неё есть внешние ссылки — роботы могут показать URL без содержимого.
  • Директивы noindex в robots.txt официально не поддерживаются Google; для этого используются meta robots или X‑Robots‑Tag в заголовках HTTP.
  • Лучшие практики при настройке robots txt для сайтах

    • Размещайте файл в корневой директории сайта (https://site.com/robots.txt).
    • Не добавляйте в robots.txt страницы с ответом 404/301/302.
    • Не блокируйте CSS и JS без необходимости — это мешает рендерингу страниц и может ухудшить SEO.
    • Указывайте Sitemap: — это облегчает индексирование (особенно для больших сайтов).
    • Используйте отдельные правила для крупных ботов (Googlebot и Yandex может требовать разных настроек).
    • Тестируйте файл через Google Search Console и Яндекс.Вебмастер — они покажут ошибки и заблокированные URL.
    • Для динамических сайтов генерируйте robots.txt автоматически при изменении структуры.

    Типичные ошибки

    • Блокировка важных ресурсов (CSS/JS), из‑за чего страница плохо индексируется.
    • Несовпадение с каноническими URL (http/https, www/без www).
    • Слишком сложные правила без комментариев — сложно отлаживать.
    • Публикация приватных данных, которые защищены только robots.txt (это небезопасно — файл публичен).

    Контроль и мониторинг

    • Отправьте robots.txt в Search Console и Яндекс.Вебмастер.
    • Анализируйте логи сервера: как часто боты приходят, какие страницы запрашивают и какие получают 403/404.
    • Проверяйте отчёты об индексировании и ошибки сканирования.

    robots txt для сайтах — простой, но мощный инструмент управления сканированием. Он помогает экономить ресурсы, защищать служебные разделы и ускорять индексацию важных страниц при условии правильной настройки. Не забывайте сочетать robots.txt с корректными мета-тегами, картой сайта и HTTPS.