robots txt для сайтах — как правильно настроить и не допустить ошибок
robots txt для сайтах — обязательный инструмент для управления индексацией и сканированием страниц поисковыми ботами. Правильно настроенный файл robots.txt помогает экономить бюджет сканирования, защищать служебные ресурсы и ускорять попадание в индекс важных страниц.
Что такое robots.
robots.txt — это простой текстовый файл в корне сайта (https://example.com/robots.txt), который содержит команды для поисковых роботов: кому разрешено или запрещено сканировать определённые разделы. Это рекомендация для роботов, а не жесткий запрет (кроме случаев, когда страницу дополнительно закрывают паролем или используют X‑Robots‑Tag/noindex).
Основные директивы
- User-agent: имя робота (например, Googlebot, Yandex)
- Disallow: запрещённые к сканированию пути
- Allow: разрешённые пути (особенно полезно при частичном разрешении в блоках)
- Sitemap: путь к карте сайта
- Crawl-delay: задержка между запросами (поддерживается не всеми системами)
- Host: предпочитаемый хост (используется Яндексом)
Примеры robots.txt для сайтов
1) Разрешить всё:
User-agent: *
Disallow:
2) Запретить весь сайт:
User-agent: *
Disallow: /
3) Блокировка админки (на примере WordPress):
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
4) Указать карту сайта и хост:
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml
Host: example.com
Wildcard и окончание строки
Большинство крупных поисковых систем поддерживают метасимволы:
* — любое количество символов
$ — конец строки
Пример: Disallow: /private/*.pdf$ — блокирует все PDF в /private.
Чего robots.txt не умеет
Лучшие практики при настройке robots txt для сайтах
- Размещайте файл в корневой директории сайта (https://site.com/robots.txt).
- Не добавляйте в robots.txt страницы с ответом 404/301/302.
- Не блокируйте CSS и JS без необходимости — это мешает рендерингу страниц и может ухудшить SEO.
- Указывайте Sitemap: — это облегчает индексирование (особенно для больших сайтов).
- Используйте отдельные правила для крупных ботов (Googlebot и Yandex может требовать разных настроек).
- Тестируйте файл через Google Search Console и Яндекс.Вебмастер — они покажут ошибки и заблокированные URL.
- Для динамических сайтов генерируйте robots.txt автоматически при изменении структуры.
Типичные ошибки
- Блокировка важных ресурсов (CSS/JS), из‑за чего страница плохо индексируется.
- Несовпадение с каноническими URL (http/https, www/без www).
- Слишком сложные правила без комментариев — сложно отлаживать.
- Публикация приватных данных, которые защищены только robots.txt (это небезопасно — файл публичен).
Контроль и мониторинг
- Отправьте robots.txt в Search Console и Яндекс.Вебмастер.
- Анализируйте логи сервера: как часто боты приходят, какие страницы запрашивают и какие получают 403/404.
- Проверяйте отчёты об индексировании и ошибки сканирования.
robots txt для сайтах — простой, но мощный инструмент управления сканированием. Он помогает экономить ресурсы, защищать служебные разделы и ускорять индексацию важных страниц при условии правильной настройки. Не забывайте сочетать robots.txt с корректными мета-тегами, картой сайта и HTTPS.
8-(930)-381-66-59