ИИ-поиск не заменяет классическое SEO — он надстраивается над ним. ChatGPT, Perplexity, Gemini и похожие системы опираются на проиндексированный контент: чтобы попасть в их ответы, сайт сначала должен быть доступен для обычных поисковых роботов и правильно ими понят.
Если страницы закрыты от индексации, sitemap устарела, а структура контента непонятна — ни одна ИИ-система не сможет корректно интерпретировать сайт. Несколько технических файлов и элементов помогают снизить этот риск: они упрощают понимание сайта для краулеров и повышают шансы на корректное цитирование бренда.
robots.txt: доступ для поисковых и ИИ-краулеров
Файл robots.txt находится в корневой директории сайта — по адресу example.com/robots.txt. Он сообщает поисковым роботам, какие разделы сайта можно сканировать, а какие — нет.
Это официально признанный стандарт, которому следуют все крупные поисковики и большинство ИИ-краулеров. Именно здесь стоит начинать техническую проверку сайта.
Что важно проверить
Случайная блокировка важных страниц — одна из самых распространённых технических ошибок. Если в robots.txt закрыт целый раздел, поисковики и ИИ-системы просто не увидят этот контент.
Помимо стандартных поисковых ботов (Googlebot, Bingbot), стоит убедиться, что не заблокированы специализированные ИИ-краулеры:
- GPTBot и OAI-SearchBot — используются OpenAI;
- ClaudeBot — Anthropic;
- Google-Extended — Google для обучения ИИ-моделей.
Если эти боты заблокированы, страницы сайта не попадут в данные, которые ИИ-системы используют при формировании ответов.
Базовый пример robots.txt
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
Это минимальный рабочий вариант: открывает сайт всем ботам и указывает на sitemap. Конкретные правила нужно настраивать под структуру вашего сайта — закрывать страницы авторизации, корзину, технические разделы и дубли.
robots.txt — более устоявшийся и широко поддерживаемый стандарт, чем экспериментальный llms.txt. Это первое, что нужно проверить при технической оптимизации.
sitemap.xml: карта сайта для поисковых систем
XML-карта сайта — это файл, в котором перечислены все значимые страницы: адреса, даты обновления, приоритеты. Поисковые системы используют её, чтобы быстрее находить и повторно сканировать контент — особенно на сайтах с большим количеством страниц.
Для ИИ-видимости sitemap важна косвенно: ChatGPT при работе в режиме поиска опирается на индекс Bing. Страницы, которые не попали в Bing, практически недоступны для этой системы. Актуальная sitemap, поданная в Bing Webmaster Tools и Google Search Console, помогает ускорить индексацию.
Что включать в sitemap
- Страницы услуг;
- Статьи блога;
- Категории;
- Товарные или продуктовые страницы;
- Кейсы;
- Страницы о компании;
- FAQ-страницы.
Что не включать
- Страницы авторизации и личного кабинета;
- Технические страницы (результаты поиска, пагинация без контента);
- Дубли и канонические копии;
- Пустые страницы;
- Фильтры без SEO-ценности;
- Служебные URL.
Важно следить за актуальностью sitemap: удалённые страницы нужно убирать, новые — добавлять своевременно. Большинство SEO-плагинов (Rank Math, Yoast) генерируют и обновляют sitemap автоматически.
llms.txt и llms-full.txt: экспериментальный файл для LLM
llms.txt — это Markdown-файл, который размещается в корне сайта по адресу example.com/llms.txt. Идея простая: дать языковым моделям сжатую и чистую версию информации о сайте — без HTML-разметки, скриптов и рекламных блоков.
Файл может содержать описание компании и её услуг, ссылки на ключевые разделы, перечень важных материалов и другой контекст, который помогает ИИ быстрее и точнее понять, чем занимается сайт. llms-full.txt — расширенная версия, которая включает полный текст страниц для загрузки всего контекста сайта в языковую модель.
Пример структуры llms.txt
# Название компании
Краткое описание компании, продукта или сайта.
## Основные разделы
- [Услуги](https://example.com/services/)
- [Блог](https://example.com/blog/)
- [Кейсы](https://example.com/cases/)
- [О компании](https://example.com/about/)
## Чем занимается компания
Краткое описание направления, аудитории, продуктов и экспертности.
## Важные материалы
- [Название статьи 1](https://example.com/article-1/)
- [Название статьи 2](https://example.com/article-2/)
Важное предупреждение
llms.txt — не официальный стандарт. Его эффективность в индустрии обсуждается: Google официально заявил, что не использует этот файл для ранжирования в поиске. Часть экспертов считает его полезным дополнительным сигналом для ИИ-систем; другие рекомендуют не тратить на него ресурсы и сосредоточиться на качестве контента и техническом SEO.
llms.txt не заменяет robots.txt, sitemap.xml, микроразметку и нормальную структуру сайта. Его стоит рассматривать как экспериментальный дополнительный слой — после того как базовые технические задачи уже решены.
Schema.org и JSON-LD: структурированные данные для машинного понимания
Микроразметка Schema — это не отдельный файл, а фрагменты структурированного кода на страницах сайта. Они описывают содержимое страницы в формате, понятном машинам: что это — статья, товар, услуга, организация или раздел FAQ.
Поисковые системы используют эти данные для формирования расширенных сниппетов в выдаче. ИИ-системы — для точного извлечения фактов и сущностей из контента. Страница с корректной разметкой проще интерпретируется и с меньшей вероятностью будет понята неправильно.
Основные типы Schema для сайта компании
- Organization — данные о компании: название, адрес, контакты, логотип;
- WebSite — информация о сайте, включая поиск по сайту;
- Article и BlogPosting — для статей и материалов блога;
- Product и Service — для описания продуктов и услуг;
- FAQPage — для страниц с вопросами и ответами;
- HowTo — для инструкций и пошаговых руководств;
- BreadcrumbList — для навигационных цепочек.
Реализуется разметка чаще всего в формате JSON-LD — блок кода в теге <script>, который добавляется в секцию <head> страницы. Большинство SEO-плагинов для WordPress умеют генерировать базовую Schema автоматически, но сложные схемы (Product, Service, HowTo) обычно требуют ручной настройки. Подробная документация — на schema.org и в Google Search Central.
Что внедрять в первую очередь
Если вы только начинаете разбираться с технической стороной ИИ-видимости, вот разумная последовательность шагов:
- Проверить robots.txt. Убедиться, что ключевые страницы открыты для сканирования, а ИИ-краулеры не заблокированы.
- Проверить индексацию. Убедиться, что страницы не закрыты тегом
noindexслучайно. - Обновить sitemap.xml. Включить актуальные страницы, убрать удалённые и служебные URL.
- Отправить sitemap в Google Search Console и Bing Webmaster Tools. Это помогает поисковым системам быстрее находить и обновлять страницы.
- Настроить базовую Schema.org-разметку. Минимум — Organization для главной страницы, Article или BlogPosting для материалов, FAQPage для страниц с вопросами.
- Подготовить llms.txt как дополнительный экспериментальный файл. Только после того как базовые технические задачи решены.
- Регулярно обновлять контент и технические файлы. Устаревшая sitemap или неактуальная информация снижают шансы на корректное цитирование.
Вывод
Видимость бренда в ИИ-системах — это не результат одного файла или настройки. Это сумма факторов: доступность сайта для краулеров, актуальная карта сайта, корректная микроразметка, понятная структура страниц и качественный контент.
robots.txt и sitemap.xml — базовый минимум. Schema.org повышает точность понимания контента машинами. llms.txt можно попробовать как дополнительный сигнал, но не стоит воспринимать его как замену нормальному техническому SEO.
Начните с проверки того, что уже есть: открыт ли сайт для индексации, актуальна ли карта сайта, есть ли базовая разметка на ключевых страницах. Это даст больший эффект, чем поиск новых экспериментальных инструментов.