March 2

Как информация попадает в LLM?

Автор статьи - Олег Шестаков - основатель Rush Agency, Rush Analytics & SEO-AGENTS.IO

Мой Telegram канал где еще больше таких материалов - https://t.me/oshestakovdigital

Важно понимать, под капотом нейронки отличаются от того же Google - так как у Google есть только поисковый индекс, а у LLM есть консенсус (базовые знания вшитые в модель) и поисковый индекс.

Почему это важно?

Потому что некоторые сайты попадают в консенсус (внутреннюю память нейронок), а так же рекомендуются как источники, а некоторые нет. Разберем как понять какую инфу LLM берут с вашего сайта. Понять это можно по тому, какие боты посещают ваш сайт!

Боты ChatGPT (OpenAI)

GPTBot собирает данные для обучения модели. То, что он собрал, в итоге "вшивается" в веса нейросети. Это то, что модель потом "знает" без обращения к интернету — её внутренние знания, knowledge cutoff и всё такое. Когда ты спрашиваешь ChatGPT что-то без поиска и он отвечает из головы — это результат работы GPTBot (и других источников данных для тренировки). Это долгий цикл: собрали данные → обучили модель → задеплоили → пользователи используют.

OAI-SearchBot строит поисковый индекс для ChatGPT Search. Это ближе к тому, что делает Googlebot для Google. Он создаёт базу проиндексированных страниц, из которой ChatGPT потом выбирает результаты, когда пользователь запускает поиск. Это работает в реальном времени — индекс постоянно обновляется, страницы переиндексируются.

ChatGPT-User — реактивный. Он заходит только тогда, когда конкретный пользователь в чате попросил открыть конкретный URL. Так же он используется когда ChatGPT «читает» данные на страницах, которые нашел OAI-SearchBot - чтобы выдать вам свежий ответ

Итого: как это работает вместе

Когда запрос не требует поиска и ответ уже вшит в знания модели - ChatGPT обращается только к своим внутренним знаниям и сразу дает ответ

Когда пользователь задаёт вопрос с включенной функцией поиска в интернете происходит следующее:

  1. ChatGPT переформулирует запрос в один или несколько поисковых запросов
  2. Отправляет их в Bing + собственный индекс OAI-SearchBot
  3. Получает список релевантных URL
  4. ChatGPT-User идёт на эти страницы в реальном времени, читает контент
  5. Модель синтезирует ответ, используя и retrieval-данные (из поиска), и параметрическую память (из обучения)
  6. Ссылки-цитаты ставятся только на то, что пришло из поискового слоя

Таким образом - вам нужно приманить на свой сайт GPTBot и OAI-SearchBot - чтобы попасть и во «внутренний мозг» и быть рекомендованным нейронкой при поиске.

Официальные боты Perplexity

PerplexityBot — основной краулер для индексации. Используется для общего краулинга и индексации веба. Аналог OAI-SearchBot — строит поисковый индекс, из которого потом берутся результаты. Работает проактивно, ходит по сайтам сам.

Perplexity-User — используется когда AI-ассистент активно просматривает сайты для ответа на запрос пользователя в реальном времени. Аналог ChatGPT-User — реактивный бот, срабатывает по запросу конкретного юзера.

Ключевое отличие от OpenAI

У Perplexity нет отдельного бота для сбора обучающих данных (аналога GPTBot). Perplexity использует foundation-модели от других провайдеров (OpenAI, Meta/Llama) и не тренирует собственные модели в значительном масштабе, поэтому заявляет, что не использует данные ботов для обучения.

Три бота Anthropic (Claude)

ClaudeBot — аналог GPTBot. Собирает публичный веб-контент, который может использоваться для обучения и улучшения генеративных AI-моделей Anthropic.

Claude-SearchBot — аналог OAI-SearchBot. Создаёт индекс сайтов, которые потом могут показываться в результатах поисковой функции Claude. Это фоновый краулер, строящий поисковый индекс. Если заблокировать его, Anthropic предупреждает, что это "может снизить видимость и точность вашего сайта в поисковых результатах пользователей".

Claude-User — аналог ChatGPT-User. Когда пользователи задают вопросы Claude, он может обращаться к сайтам через агент Claude-User.

Так что проверьте, что эти боты у вас не заблокированы. Сделал для вас сводную табличку по ботам.

Роли ботов для популярных LLM

Где смотреть какие боты приходят?

  1. В панели CloudFlare
  2. В логах сервера
  3. Написать свое решение

P.S. На скрине моя панелька, которая тянет данные о ботах или через Pixel на сайте (точность около 70%) или через CloudFlare Workers или напрямую из логов сервера.

Автор статьи - Олег Шестаков - основатель Rush Agency, Rush Analytics & SEO-AGENTS.IO

Мой Telegram канал где еще больше таких материалов - https://t.me/oshestakovdigital