Robots.txt: настройка файла для SEO
Robots.txt — текстовый файл, который управляет доступом поисковых роботов к страницам сайта. Правильная настройка robots.txt защищает от индексации служебных разделов, экономит краулинговый бюджет и помогает поисковикам эффективнее сканировать важные страницы.
Robots.txt напрямую влияет на краулинг — Краулинг и краулинговый бюджет. В этой статье разберём, как создать robots.txt, какие директивы использовать и как избежать типичных ошибок.
Что такое robots.txt
Robots.txt — текстовый файл в корневой директории сайта, содержащий инструкции для поисковых роботов. Файл указывает, какие разделы сайта можно сканировать, а какие — нельзя.
Файл всегда располагается по адресу: site.ru/robots.txt
Зачем нужен robots.txt:
- Управление краулингом — указывает роботам, куда можно и нельзя заходить
- Экономия краулингового бюджета — роботы не тратят ресурсы на ненужные страницы
- Защита служебных разделов — скрытие админки, корзины, личного кабинета
- Предотвращение индексации дублей — блокировка технических страниц
- Указание на sitemap — помогает роботам найти карту сайта
Важно понимать: Robots.txt — это рекомендация, а не запрет. Добросовестные роботы (Google, Яндекс) следуют инструкциям, но вредоносные боты могут их игнорировать. Robots.txt не защищает конфиденциальные данные.
Как работает robots.txt
Когда поисковый робот впервые приходит на сайт, он сначала запрашивает файл robots.txt и читает инструкции.
Алгоритм работы:
- Робот обращается к site.ru/robots.txt
- Читает директивы для своего User-agent
- Сканирует только разрешённые разделы
- Пропускает запрещённые (Disallow) пути
- Периодически перечитывает файл (обычно раз в сутки)
Если robots.txt отсутствует:
Робот считает, что ограничений нет, и сканирует весь сайт. Это нормально для небольших сайтов без служебных разделов.
Если robots.txt недоступен (ошибка 5xx):
Google приостанавливает сканирование до восстановления доступа к файлу. Яндекс может продолжить с последними известными правилами.
Где находится robots.txt
Robots.txt должен находиться строго в корневой директории сайта и быть доступен по прямому URL.
Правильное расположение:
- https://site.ru/robots.txt ✓
- https://www.site.ru/robots.txt ✓
- https://subdomain.site.ru/robots.txt ✓ (для поддомена)
Неправильное расположение:
- https://site.ru/folder/robots.txt ✗
- https://site.ru/robots.txt.html ✗
Важные требования:
- Файл должен называться именно robots.txt (в нижнем регистре)
- Кодировка — UTF-8
- Тип содержимого — text/plain
- Для каждого поддомена — свой robots.txt
- Для HTTP и HTTPS версий — может быть разный robots.txt
Синтаксис robots.txt
Robots.txt использует простой синтаксис с несколькими основными директивами: User-agent, Disallow, Allow, Sitemap.
Структура файла:
User-agent: [имя робота]
Disallow: [путь]
Allow: [путь]
Sitemap: [URL карты сайта]
Правила синтаксиса:
- Каждая директива на отдельной строке
- Регистр директив не важен (Disallow = disallow)
- Регистр путей важен (/Page ≠ /page)
- Комментарии начинаются с #
- Пустая строка разделяет блоки для разных User-agent
- Пробелы в начале и конце строки игнорируются
Спецсимволы:
*— любая последовательность символов$— конец URL
Директива User-agent
User-agent определяет, для какого робота предназначены следующие правила.
Синтаксис:
User-agent: [имя робота]
Основные User-agent:
| User-agent | Робот |
|---|---|
| * | Все роботы |
| Googlebot | Основной робот Google |
| Googlebot-Image | Робот Google для изображений |
| Yandex | Все роботы Яндекса |
| YandexBot | Основной робот Яндекса |
| YandexImages | Робот Яндекса для изображений |
| Bingbot | Робот Bing |
| Mail.RU_Bot | Робот Mail.ru |
Примеры:
Правила для всех роботов:
User-agent: *
Disallow: /admin/
Отдельные правила для Яндекса:
User-agent: *
Disallow: /admin/
User-agent: Yandex
Disallow: /admin/
Disallow: /search/
Полный запрет для всех роботов:
User-agent: *
Disallow: /
Директива Disallow
Disallow запрещает роботам сканировать указанные пути.
Синтаксис:
Disallow: [путь]
Примеры использования:
# Запретить конкретную папку
Disallow: /admin/
# Запретить конкретную страницу
Disallow: /private-page.html
# Запретить все URL, начинающиеся с /temp
Disallow: /temp
# Запретить URL с параметром
Disallow: /*?sort=
# Запретить файлы с расширением
Disallow: /*.pdf$
# Запретить весь сайт
Disallow: /
# Пустой Disallow = всё разрешено
Disallow:
Что обычно закрывают:
- /admin/ — административная панель
- /wp-admin/ — админка WordPress
- /cart/ — корзина
- /checkout/ — оформление заказа
- /search/ — внутренний поиск
- /account/ — личный кабинет
- /*?sort= — сортировки
- /*?filter= — фильтры (если не SEO-страницы)
Директива Allow
Allow разрешает доступ к определённым путям внутри запрещённых директорий. Используется для исключений.
Синтаксис:
Allow: [путь]
Примеры:
# Запретить /catalog/ но разрешить /catalog/sale/
User-agent: *
Disallow: /catalog/
Allow: /catalog/sale/
# Запретить все PDF кроме прайса
Disallow: /*.pdf$
Allow: /price.pdf
Приоритет правил:
При конфликте Disallow и Allow применяется более специфичное правило (с более длинным путём). Если длина одинаковая — Allow имеет приоритет.
Директива Sitemap
Sitemap указывает расположение XML-карты сайта. Помогает роботам быстрее найти и обработать sitemap. Sitemap.xml — как создать — подробнее о карте сайта.
Синтаксис:
Sitemap: [полный URL]
Примеры:
# Один sitemap
Sitemap: https://site.ru/sitemap.xml
# Несколько sitemap
Sitemap: https://site.ru/sitemap.xml
Sitemap: https://site.ru/sitemap-news.xml
Sitemap: https://site.ru/sitemap-images.xml
Важно:
- Указывайте полный URL с протоколом
- Директива Sitemap не привязана к User-agent
- Можно указать несколько sitemap
- Располагайте в конце файла
Создание robots.txt
Создать robots.txt можно в любом текстовом редакторе. Главное — сохранить с правильным именем и кодировкой.
Способы создания:
1. Вручную
- Откройте Блокнот или любой текстовый редактор
- Напишите директивы
- Сохраните как robots.txt (кодировка UTF-8)
- Загрузите в корень сайта через FTP
2. Через CMS
Большинство CMS позволяют редактировать robots.txt:
- WordPress — через плагины (Yoast SEO, Rank Math)
- Битрикс — Маркетинг → Поисковая оптимизация → Robots.txt
- Tilda — Настройки сайта → Ещё → Robots.txt
3. Генераторы robots.txt
Онлайн-инструменты для создания файла по шаблону. Удобно для начинающих.
Robots.txt для WordPress
WordPress автоматически генерирует виртуальный robots.txt, но для SEO лучше создать свой.
Рекомендуемый robots.txt для WordPress:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /tag/
Disallow: /page/
Sitemap: https://site.ru/sitemap.xml
Пояснения:
- /wp-admin/ — закрываем админку, но разрешаем admin-ajax.php (нужен для работы сайта)
- /wp-includes/, /wp-content/ — служебные папки
- /feed/, /trackback/, /comments/ — технические страницы
- /?s=, /search/ — результаты поиска
- /author/ — страницы авторов (опционально)
- /tag/ — страницы тегов (если не продвигаете)
Настройка через плагины:
Yoast SEO: SEO → Инструменты → Редактор файлов → Robots.txt
Rank Math: Rank Math → Общие настройки → Редактировать robots.txt
Robots.txt для интернет-магазина
Интернет-магазины требуют особого внимания к robots.txt из-за множества технических страниц, фильтров и параметров. SEO для интернет-магазина — полный гайд по оптимизации e-commerce.
Рекомендуемый robots.txt для магазина:
User-agent: *
# Служебные разделы
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /compare/
# Поиск и фильтры
Disallow: /search/
Disallow: /*?q=
Disallow: /*?search=
# Сортировки (если не SEO-страницы)
Disallow: /*?sort=
Disallow: /*?order=
# Параметры сессий и отслеживания
Disallow: /*?sid=
Disallow: /*?session=
Disallow: /*?utm_
# Пагинация в параметрах
Disallow: /*?page=
# Служебные страницы
Disallow: /print/
Disallow: /pdf/
Disallow: /email-friend/
# Разрешаем важное
Allow: /catalog/
Allow: /products/
Sitemap: https://shop.ru/sitemap.xml
Особенности для e-commerce:
- Закрывайте корзину, оформление, личный кабинет
- Решите, закрывать ли фильтры (зависит от SEO-стратегии)
- Параметры сортировки обычно закрывают
- UTM-метки закрывать не обязательно (canonical решает проблему)
Примеры robots.txt для разных сайтов
Готовые шаблоны для различных типов сайтов.
Минимальный robots.txt (всё разрешено):
User-agent: *
Disallow:
Sitemap: https://site.ru/sitemap.xml
Для корпоративного сайта:
User-agent: *
Disallow: /admin/
Disallow: /bitrix/
Disallow: /search/
Disallow: /print/
Disallow: /*?print=
Sitemap: https://company.ru/sitemap.xml
Для блога:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /search/
Disallow: /?s=
Disallow: /author/
Disallow: /tag/
Disallow: /page/
Disallow: /*?replytocom=
Sitemap: https://blog.ru/sitemap.xml
Полная блокировка (для тестовых сайтов):
User-agent: *
Disallow: /
Блокировка конкретного робота:
User-agent: *
Disallow:
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
Проверка robots.txt
После создания или изменения robots.txt обязательно проверьте корректность.
Способы проверки:
1. Прямой доступ
Откройте в браузере: https://ваш-сайт.ru/robots.txt
Файл должен отображаться как текст.
2. Google Search Console
- Откройте GSC
- Настройки → Инструмент проверки robots.txt
- Введите URL для проверки
- Посмотрите, разрешён или заблокирован
Google Search Console — как пользоваться — подробнее о GSC.
3. Яндекс Вебмастер
- Откройте Вебмастер
- Инструменты → Анализ robots.txt
- Проверьте правила и URL
4. Онлайн-валидаторы
Сервисы для проверки синтаксиса и тестирования правил.
Ошибки в robots.txt
Типичные ошибки, которые приводят к проблемам с индексацией.
1. Блокировка всего сайта
# ОШИБКА
User-agent: *
Disallow: /
Часто остаётся после разработки. Проверяйте robots.txt при запуске сайта.
2. Блокировка CSS и JS
# ОШИБКА
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Google нужен доступ к CSS и JS для корректного рендеринга страниц.
3. Блокировка важных страниц
Случайная блокировка каталога, карточек товаров, статей.
4. Неправильный путь к файлу
Robots.txt в папке, а не в корне сайта.
5. Синтаксические ошибки
# ОШИБКА - пробел перед двоеточием
User-agent : *
# ОШИБКА - слитное написание
Disallow/admin/
6. Использование robots.txt вместо noindex
Robots.txt не удаляет страницы из индекса — только блокирует сканирование.
7. Разные robots.txt для www и без www
Если не настроен редирект, нужны одинаковые файлы для обеих версий.
Что нельзя закрывать в robots.txt
Некоторые разделы закрывать нельзя или нежелательно.
Нельзя закрывать:
- CSS и JavaScript — Google нужны для рендеринга
- Изображения товаров — если важен поиск по картинкам
- Важные страницы каталога — даже если кажутся техническими
Нежелательно закрывать:
- Пагинацию через ЧПУ (/page/2/) — лучше использовать canonical
- Фильтры с SEO-ценностью — могут приносить трафик
- Страницы с внешними ссылками — вес не передастся
Помните: Закрытие в robots.txt ≠ удаление из индекса. Если на закрытую страницу есть внешние ссылки, она может попасть в индекс без содержимого.
Robots.txt vs noindex
Два инструмента для разных задач. Важно понимать различия.
| Параметр | Robots.txt (Disallow) | Noindex |
|---|---|---|
| Что делает | Запрещает сканирование | Запрещает индексацию |
| Страница в индексе | Может попасть (если есть ссылки) | Не попадёт |
| Передача веса | Не передаётся (страница не сканируется) | Может передаваться |
| Удаление из индекса | Не удаляет | Удаляет со временем |
| Где указывается | Файл robots.txt | Мета-тег или HTTP-заголовок |
Когда что использовать:
- Robots.txt — для экономии краулингового бюджета, когда страницы не должны сканироваться
- Noindex — когда страница должна быть доступна пользователям, но не в поиске
Важно: Нельзя использовать вместе! Если страница закрыта в robots.txt, робот не увидит noindex на ней.
Чек-лист настройки robots.txt
| Этап | Действие | Статус |
|---|---|---|
| Создание | Создать файл robots.txt | ☐ |
| Создание | Разместить в корне сайта | ☐ |
| Создание | Проверить доступность по URL | ☐ |
| Настройка | Указать User-agent: * | ☐ |
| Настройка | Закрыть админку | ☐ |
| Настройка | Закрыть служебные разделы | ☐ |
| Настройка | Закрыть результаты поиска | ☐ |
| Настройка | Добавить Sitemap | ☐ |
| Проверка | Проверить синтаксис | ☐ |
| Проверка | Убедиться, что важные страницы не закрыты | ☐ |
| Проверка | Проверить в GSC и Вебмастере | ☐ |
| Мониторинг | Регулярно проверять при изменениях на сайте | ☐ |
FAQ: Часто задаваемые вопросы
Как правильно заполнить robots.txt?
Укажите User-agent для определения роботов, Disallow для запрета разделов (например, /admin/), Allow для исключений, Sitemap для указания карты сайта: https://site.ru/sitemap.xml.
Robots.txt запрещает индексацию?
Нет. Robots.txt запрещает только сканирование, но не индексацию. Если на заблокированную страницу ведут внешние ссылки, она может попасть в индекс. Для запрета индексации используйте мета-тег noindex или HTTP-заголовок X-Robots-Tag.
Нужен ли robots.txt для каждой версии сайта?
Да, если не настроены редиректы. Robots.txt для HTTPS и HTTP, для www и без www могут быть разными. Но лучше настроить редирект на одну версию, тогда достаточно одного файла.
Что будет, если удалить robots.txt?
Роботы будут сканировать весь сайт без ограничений. Robots.txt не обязателен — если его нет, это не ошибка. Но без него роботы будут тратить краулинговый бюджет на служебные страницы, а конфиденциальные разделы могут попасть в индекс.
Как проверить robots.txt на ошибки?
Используйте инструменты в Google Search Console или Яндекс Вебмастере. Они покажут синтаксические ошибки и позволят проверить, заблокирован ли конкретный URL.
Нужна помощь с техническим SEO?
Правильная настройка robots.txt — часть технической оптимизации сайта. Ошибки в файле могут привести к проблемам с индексацией и потере трафика. Закажите Технический аудит сайта — проверим robots.txt, sitemap и другие технические аспекты SEO.
Проверено экспертом
Статья прошла профессиональную проверку качества
Олеся Коробка
SEO-специалист
Области экспертизы:
Теги:
Читайте также
Полное руководство по мобильной оптимизации. Mobile-First индексация Google, адаптивный дизайн и улучшение UX на мобильных устройствах.
Правильная структура сайта — основа успешного SEO. Разбираем принципы построения иерархии, создание логичной архитектуры и улучшение юзабилити для поисковиков.
Что такое пагинация на сайте? Как правильно настроить страницы пагинации для SEO: rel=prev/next, canonical, noindex. Примеры и рекомендации.
Что такое траст сайта? Как проверить траст онлайн бесплатно. Сервисы для проверки: Checktrust, PR-CY, Xtool. Как повысить Trust Rank. Трастовые сайты.
Понравилась статья?
Закажите профессиональный SEO-аудит и мы применим эти знания для улучшения вашего сайта.
Заказать аудит