Практическая сторона теории информационного поиска
Доброго дня, уважаемые читатели журнала topvisor. Звать меня Александр Коргожа, я продукт овнер команды reconversia group и сегодня мне выпала честь презентовать миру статью написанную основателями нашей команды Артемом Храмовом - khramovstudio.com и Владом Аксютиным - reconversia.com
Материал получился увлекательным, где-то на стыке теории информационного поиска, марксистской политэкономии и исследований цифровой идентичности.
Уверен, некоторые из вас найдут его увлекательным, некоторым он сможет показаться скучным и не содержательным; и тех, и других я одинаково рад видеть среди читателей.
-
Введение в информационный поиск
Коммодификация информации или почему внимание - есть товар
Поведенческие сигналы как часть архитектуры ранжирования
Моделирование пользовательских сессий в поисковых системах
Jija lab - как система контроля поведенческих факторов ранжирования
1. Введение в информационный поиск
Когда мы произносим словосочетание «поисковая система», большинство людей представляет себе достаточно простую задачу: есть набор документов, существует запрос пользователя, а задача алгоритмов заключается в том, чтобы найти наиболее релевантный документ и представить его в выдаче SERP.
Эта модель наглядно демонстрирует ранний концепт развития информационного поиска. В мире, где количество информации было ограничено, основной проблемой являлось её обнаружение. Пользователь искал информацию, а поисковая система выступала посредником между человеком и знаниями. Так было вначале.
Рынок рос и вместе с ним росло производство контента, следом за поисковыми системами миру явились социальные сети, видеоплатформы, большие языковые модели, как итог: информации стало значительно больше, чем способность человека её потреблять.
В результате изменилась сама природа поиска. Современные поисковая системы не столько решают задачу поиска самого релевантного документа на тематическом векторе, скорее они решают задачу поиска ответа, который с наибольшей вероятностью удовлетворит намерение пользователя.
На первый взгляд разница может показаться незначительной, но именно она определяет архитектуру большинства современных алгоритмов ранжирования.
Если целью является поиск документа, достаточно сравнить текст документа с поисковым индексом запроса. Если целью является удовлетворение пользователя, возникает совершенно иной пул вопросов.
- Сколько времени пользователь взаимодействовал с найденным материалом?
- Совершил ли он какое либо конверсионное действие внутри посадочной?
- Завершилась ли его поисковая сессия после перехода на страницу?
- Вернулся ли пользователь обратно в поиск после посещения документа?
- Сформулировал ли он уточняющий запрос после просмотра результата или нашёл ответ сразу?
Чтобы ответить на эти вопросы, поисковой системе недостаточно анализировать документы. Ей необходимо анализировать поведение людей.
Именно поэтому развитие информационного поиска на протяжении последних лет всё сильнее смещается от анализа контента к анализу пользовательских взаимодействий. Алгоритмы начинают оценивать не только то, что опубликовано на странице, но и то, каким образом пользователи взаимодействуют с этой страницей, поисковой выдачей и брендом в целом.
В этом смысле современный поиск представляет собой систему непрерывного моделирования человеческого поведения. Дальнейшие главы посвящены именно этой трансформации.
- Сначала мы рассмотрим, каким образом информация из дефицитного ресурса превратилась в практически бесплатный продукт и почему главным ограничением цифровой экономики стало внимание пользователей.
- Затем разберём, каким образом поисковые системы используют поведенческие сигналы для измерения качества результатов поиска и что именно показали утечки внутренних документов Google.
- После этого перейдём к вопросу моделирования пользовательских сессий, ограничениям антифрод-систем и практическим инструментам исследования поведенческих факторов.
Ведь если современная поисковая система ранжирует не документы, а вероятность удовлетворения пользователя, то объектом анализа становится уже не страница сайта, а сам пользовательский маршрут.
2. Коммодификация информации или почему внимание - есть товар
«Тень пугает мир, это тень абстракции».
Научное определение "Коммодификации" звучит примерно так: Коммодификация — это процесс превращения неотчуждаемых, бесплатных или подаренных вещей (предметов, услуг, идей, природы, личной информации, людей) в товары или объекты, выставленные на продажу. Это понятие подразумевает утрату присущих объекту качеств или социальных связей при его интеграции в капиталистический рынок.
Вообще, суть процесса коммодификации информации является естественным продолжением идей Карла Маркса, где материальное производство рассматривается как основа для развития общества и является основополагающим критерием формирования нематериальных благ.
И одним из центральных понятий всех его идей - есть товар.
Когда Маркс рассуждал над сущностью "товара" , он едва ли мог представить себе интернет, поисковые системы, большие языковые модели, макдональс. Однако именно его идеи товарной формы позволят достаточно точно описать процессы, которые сегодня происходят в цифровом пространстве.
По Марксу - товар есть не просто вещь. Товар - есть любой объект, способный участвовать в обмене. Его ценность определяется не только внутренними свойствами, но и общественным отношением к нему. В этом смысле информация 21 века прошла тот же путь, который когда-то прошли земля, труд и капитал.
Когда-то она была дефицитным товаром. Сегодня информация находится в состоянии перепроизводства. Каждую секунду публикуются тысячи статей, видео, возможно даже нашими коллегами по цеху. А после того как мир соприкоснулся с большими языковыми моделями, стоимость производства контента стремительно начала приближается к нулю. Именно поэтому информация перестаёт функционировать как классический товар и теряет свойства классической товарной формы.
Парадокс, ведь по Марксу ценность товара рождается из вложенного в него труда. Но когда LLM производит статью за секунды, видимый производственный труд из уравнения исчезает и перестаёт быть очевидным источником стоимости.
Информация остаётся, а товар внутри неё растворяется.
В этом и есть парадокс. Сама по себе информация никуда не делась. Её невозможно изъять, стереть, сделать дефицитной — она остаётся с нами в бесконечном количестве. И при этом перестаёт быть "товаром" в классическом понимании этого слова, ведь если предложение бесконечно, то в условиях информационного перепроизводства дефицит возникает не на стороне контента, а на стороне его потребления. Таким образом дефицитным ресурсом становится внимание.
Поисковые системы, социальные сети, медиа платформы, нейросети уже не конкурируют за информацию как таковую. Они конкурируют за наше с тобой количество часов человеческой жизни. Короче, если индустриальный капитализм контролировал производство вещей, то информационный капитализм контролирует маршруты движения информации.
Для поисковых систем это означает очень простую вещь. Акцент с поиска наиболее релевантного документа, смещается в сторону документа, который максимально удержит внимание пользователя и позволит решить его задачу.
Именно здесь мы сталкиваемся с тем, что в SEO принято называть поведенческими факторами. Таким образом если внимание действительно является главным товаром цифровой экономики, то возникает закономерный вопрос:
- Можно ли системно влиять на распределение этого товара внутри поисковой выдачи и являются ли поведенческие сигналы одним из наиболее масштабируемым фактором влияния на удовлетворенность поискового интента?
3. Поведенческие сигналы как часть архитектуры ранжирования
Итак, начнем с ответов на вопросы и пойдем от обратного.
-являются ли поведенческие сигналы одним из наиболее масштабируемым фактором влияния на удовлетворенность поискового интента?
На июнь 2026 года все наше сообщество может однозначно ответить на этот вопрос - да. Ведь мы успели познакомиться с сливом внутренней документации яндекс от 25 января 2023, с которого мы узнали о наличии 690 потенциальных факторов ранжирования, среди которых особый интерес вызвали поведенческие, информация о которых поставила точку в вопросе существования мифического Lastclick, пролив свет на тот факт, что пс собирают данные как внутри документа так и на серпе, и даже с закладок в браузере. Стало очевидно, что Яндекс способен собирать и интерпретировать поведенческие сигналы на уровне машинного интеллекта, определяя тип поведение пользователя на тематическом векторе.
А в 2024 году, мы уже читали утечку Google Content Warehouse API вместе с публичными материалами судебных разбирательств Google с Минюстом США. Все эти материалы очень подробно разобрал Dr.Max на страницах своей книги: "Доказательное SEO"
Чем нам сейчас может быть интересен Google в контексте данной статьи?
Если с антифродом яндекса сообщество справилось еще в далеком 2018 году, то вот Google до недавнего времени оставался значительно менее изученной средой для работы с поведенческими сигналами, чем Яндекс или даже Bing. И до слива документации, вообще было не ясно, как сильно поведенческие сигналы внедрены в алгоритмы ранжирования Google. Ну вот например:
Утечка документации и судебные показания инженеров Google подтверждают, что поисковая система представляет собой сложную, многоуровневую экосистему взаимосвязанных микросервисов и специализированных систем. Каждая из них выполняет свою, четко определенную функцию.
Системы, отвечающие за индексацию и базовую классификацию контента (Alexandria, SegIndexer). Система первичного скоринга, работающая на огромной скорости (Mustang). Система, оценивающая релевантность на основе текста, ссылок и кликов (Topicality, или T*). Мощная система, переранжирующая результаты на основе исторического поведения пользователей (NavBoost). Набор финальных корректирующих фильтров (Twiddlers), которые вносят редакционные правки.
что на практике будет звучать так: Ваша страница может быть идеально релевантна (пройти проверку T*), но если ваш домен имеет низкий базовый рейтинг доверия (Q*), она может быть отфильтрована еще на этапе первичного скоринга. Ваша страница может пройти все первичные фильтры, но если пользователи систематически на ней "не задерживаются", она будет понижена в рейтинге системой NavBoost.
Если кратко, есть три основных вектора и если их сложить вместе - получится конфета. Формула выглядит так T* + Q* + P* = ZBC. Общий концепт продвижения сформулированный DR.MAX изложен на страницах 219 - 228, и я в целом с ним согласен почти во всем, ведь протестировал эту стратегию с некоторыми оговорками еще за пол года до дропа книги в своем кейсе licensegentlemen.com - iGaming Империя, которой не суждено было случится.
Давай остановимся подробнее на этих сигналах
Topicality (T*) - это формализованная, "собранная вручную" (hand-crafted) система, которая вычисляет фундаментальную, зависящую от запроса релевантность документа, служащую "базовой оценкой" (base score). Инженеры Google называют сигналы, формирующие T*, "ABC сигналами".
A (Anchors): Сила анкорного текста =- 28= A - это Anchors (анкоры). Этот сигнал формируется из анкорного текста входящих гиперссылок, указывающих на документ. Это подтверждает одно из старейших правил SEO: то, как на вас ссылаются другие, напрямую влияет на то, по каким запросам вы будете ранжироваться.
B (Body): Важность контента на странице B - это Body (тело документа). Это самый традиционный сигнал информационного поиска, основанный на анализе самого текста на странице. Как выразился вице-президент Google по поиску Панду Наяк, слова на странице и то, где они находятся, "на самом деле имеют решающее значение" (actually kind of crucial) для ранжирования.
C (Clicks): Прямое влияние поведения пользователей на релевантность C - это Clicks (клики). Включение этого сигнала в фундаментальную систему оценки релевантности T* стало одним из самых значимых подтверждений, полученных в ходе судебного процесса. Это доказывает, что поведение пользователей - это не просто "дополнительный" или "вторичный" сигнал; это один из трех столпов, на которых держится базовая релевантность.
Второй сигнал в нашем списке есть Q* (произносится «Кью-стар») — это внутреннее название Google для общесайтовой, в значительной степени статичной и не зависящей от конкретного запроса оценки качества.
Центральным, измеримым компонентом системы Q* является атрибут siteAuthority. Его обнаружение в модуле CompressedQualitySignals стало одним из главных открытий утечки.
Важно понимать, что siteAuthority — это не просто ссылки. Это комплексный, многовекторный показатель, который объединяет в себе данные из нескольких источников, конкретно нас интересуют — Поведенческие сигналы: Агрегированные данные о взаимодействии пользователей с сайтом, вероятно, собранные через Chrome (chromeInTotal) и NavBoost. Сюда входят брендовый поисковый спрос и прямые заходы.
И мой любимый сигнал P* (Popularity) — динамическая, «быстрая» оценка, отражающая реальную востребованность и популярность у пользователей. Этот сигнал был явно упомянут в судебных документах по делу Министерства юстиции США против Google как второй из двух «фундаментальных топ-уровневых сигналов ранжирования».
P* отвечает не на вопрос "Заслуживает ли этот сайт доверия в целом?", а на вопрос "Интересен ли и полезен ли этот контент пользователям прямо сейчас?". Это система, которая позволяет Google быть гибким и реагировать на текущие тренды, вирусный контент и меняющиеся предпочтения аудитории. Она действует как корректирующий механизм для статической, инертной системы Q*.
Самым большим откровением, связанным с сигналом P*, стало подтверждение того, что Google напрямую использует данные из браузера Chrome для его расчета. Это положило конец десятилетиям спекуляций.
Ключевым атрибутом здесь является chromeInTotal. Этот сигнал, как следует из утечки, отслеживает общее количество просмотров или визитов, которые сайт получает от пользователей Chrome, независимо от того, пришли они из поиска Google или нет. Это означает, что Google измеряет:
Прямые заходы (Direct Traffic): Когда пользователь вводит ваш URL непосредственно в адресную строку.
Трафик из закладок: Когда пользователь переходит на ваш сайт из своих закладок в Chrome.
Трафик из других источников: Переходы из социальных сетей, email-рассылок, мессенджеров, открытые через Chrome.
Данные Chrome — это лишь одна часть P*. Вторая, не менее важная часть, — это данные о поведении пользователей непосредственно в поисковой выдаче, которые собирает и анализирует система NavBoost.
NavBoost — это мощнейший переранжирующий слой, который корректирует первоначальный рейтинг алгоритм Mustang на основе огромного массива исторических данных о кликах (за последние 13 месяцев). Он анализирует, какие страницы пользователи предпочитали выбирать по данному запросу в прошлом и насколько они были удовлетворены результатом. Ключевые сигналы, которые использует NavBoost:
goodClicks: Клики, после которых пользователь не возвращается в поиск.
badClicks: Клики с быстрым возвратом в SERP («pogo-sticking»).
lastLongestClicks: Клики, которые завершают поисковую сессию.
В общем, утечка данных Google и судебные разбирательства не просто дали нам список новых атрибутов. Они раскрыли фундаментальную архитектуру и философию, лежащие в основе ранжирования. Стало очевидно, что погоня за сиюминутными «фишками» и попытки найти лазейки в алгоритме — это путь в никуда.
Так нам говорит DR.Max в своей книги. И именно здесь я с ним не согласен. Если мыслить моими категориями, то под термин поисковые системы попадают все системы в которых реализован поиск. Допустим: youtube, claude/chat gpt/другии llm, даже Chaturbate и OnlyFans. По моему мнению поведенческие факторы - это общая тенденция развития абсолютно всех поисковых систем.
Чтобы машинный интеллект понял, нравится ли человеку видосик, ему необходимо разобрать паттерны поведения юзера на тематическом векторе: длину посмотра, досматриваемость, переход в тг канал с описания видоса и т.д, сложность в том, что в этой формуле есть крайне непостоянная константа - человек. И как бы не бились лучшие инженеры с этой константой, любой антифрод вокруг пф будет обладать критической уязвимостью в своей сути.
Парадокс заключается в том, что система пытается формализовать поведение, которое само по себе не является стабильной функцией, ведь поведение пользователя становится одновременно сигналом и шумом.
Конечно, из того же слива мы знаем и про систему CRAPS — которая специально гасит резкий всплеск кликов, чтобы единичный скачок не двигал ранжирование непропорционально, и оценивала именно долгосрочное поведение. Но практические кейсы сообщества вокруг вирального трафика ( который есть частью пф), указывают на критические уязвимости и внутри системы CRAPS. Пример: Кейс Олега Шестакова от 31.03.2026, который начинается с описание как это работает.
👉 На ваш сайт начинают приходить тысячи живых пользователей из вашего региона - с социальных сетей и «из закладок» 🔜 Google видит, что страница стала виральной (хайпанула 😎) и резко подбрасывает ее по всем запросам в поиске в вашем регионе. ( c ) Олег Шестаков
Как мы видим, поведенческие сигналы действительно являются значимой частью факторов ранжирования, а антифрод не способен полностью устранить влияние человеческого поведения, возникает практический вопрос: можно ли воспроизводить пользовательские сессии таким образом, чтобы они выглядели статистически правдоподобно для поисковой системы? И на сколько эти факторы способны к масштабированию?
Именно с этих вопросов началось наше исследование в 2023 году.. В поисках ответов, мы пробили антифрод поисковой системы Yandex на BrowserAutomationStudio в 2023 году с своей прокси-фермой, следом антифрод поисковой системы Bing в 2024 на ZennoPoster ( о Bing кстати я писал в статье: Искусство доминации на B2B проектах в iGaming ) и уже в 2025 году собрать свою платформу эмуляции по моделированию поисковых сессий, лишенной всех недостатков проекта zennolab.com.
4. Моделирование пользовательских сессий в поисковых системах
Если объектом анализа современной поисковой системы становится пользовательский маршрут, возникает закономерный вопрос: каким образом такие маршруты вообще можно исследовать?
Когда мы начали работать с поведенческими сигналами, довольно быстро выяснилось, что основная сложность заключается даже не в алгоритмах поисковых систем.
Один человек способен воспроизвести несколько пользовательских сценариев. Небольшая команда может воспроизвести сотни сценариев. Однако когда речь заходит о тысячах запросов, десятках тематик, множестве географических регионов и различных типах пользовательского поведения, ручное моделирование перестаёт быть исследовательским инструментом.
Возникает необходимость в системе, способной работать не с отдельными действиями, а с целостными пользовательскими сессиями.
Именно из этой задачи в 2023 году вырос внутренний исследовательский проект, который впоследствии получил рабочее название «Jija».
На первом этапе это был внутренний инструмент для управления цифровыми идентичностями, браузерными сессиями и пользовательскими сценариями. Однако по мере развития стало очевидно, что мы строим не очередной сервис автоматизации, а универсальный слой между человеком, браузером и цифровой средой.
Сегодня архитектура платформы построена вокруг единого ядра, отвечающего за цифровую идентичность пользователя, жизненный цикл сессий, сетевое окружение и выполнение сценариев взаимодействия. Поверх этого ядра могут существовать как пользовательские приложения, так и облачные сервисы автоматизации. Иными словами, если традиционные системы работают с аккаунтами, то Жижа работает с поведением.
Современные цифровые платформы практически никогда не взаимодействуют с человеком напрямую. Они взаимодействуют с его цифровым представлением — совокупностью сигналов, накопленных в процессе множества сессий. Большинство инструментов автоматизации воспринимают пользователя как набор технических параметров: браузер, IP-адрес, cookies или устройство.
Мы же исходим из противоположной гипотезы.
Для поисковой системы, рекламной платформы или большой языковой модели существует не набор параметров. Существует последовательность действий, формирующая цифровой образ человека.
Именно поэтому архитектура платформы строилась вокруг пяти базовых сущностей:
— цифровой идентичности пользователя;
— изолированной среды взаимодействия;
— согласованного сетевого окружения;
— системы исполнения сценариев;
— слоя взаимодействия с внешними цифровыми сервисами.
Такой подход позволяет работать не с отдельными действиями, а с полноценными пользовательскими маршрутами.
Именно этот принцип лёг в основу большинства наших исследований.
Фокус постепенно сместился с отдельных документов и поисковых запросов на изучение поведения как самостоятельного объекта анализа. Вместо оптимизации отдельного документа или отдельного запроса мы начали проектировать целостные сценарии взаимодействия пользователей с поисковой выдачей, контентом и брендом. Нас всё меньше интересовало положение страницы в выдаче и всё больше — механизмы формирования пользовательского выбора.
Кстати, если захочешь поиграть в кибернетика, посмотрев на поведение пользователя с позиции поисковых систем - вот тебе пост: https://t.me/needlamborghini/195
- Клик получает значение только внутри сессии.
- Сессия получает значение только внутри пользовательского маршрута.
- А пользовательский маршрут получает значение только внутри тематического контекста.
В определённом смысле это стало логическим продолжением эволюции самого информационного поиска.
Если поисковые системы всё чаще ранжируют не документы, а вероятность удовлетворения пользовательского намерения, то исследователь неизбежно начинает работать не с контентом, а с моделями поведения.
Jija lab - как система контроля поведенческих факторов ранжирования
В ходе исследований стало очевидно, что существующие инструменты автоматизации плохо подходят для воспроизведения сложных пользовательских сценариев. Большинство решений позволяют автоматизировать отдельные действия, однако не предоставляют удобных механизмов для управления цифровыми идентичностями, жизненным циклом сессий и согласованным сетевым окружением.
Именно поэтому внутренний исследовательский проект «Жижа» постепенно трансформировался в самостоятельную платформу моделирования пользовательских маршрутов.
Архитектура платформы включает собственный браузерный слой Nativ Browser , систему управления цифровыми идентичностями и облачную среду исполнения сценариев. Такой подход позволяет моделировать не отдельные клики или переходы, а целостные пользовательские сессии в различных цифровых средах.
На момент написания статьи платформа используется для исследований поведенческих факторов в ряде поисковых систем. О некоторых из я писал в прошлом докладе: Искусство доминации на B2b проекта в iGaming
Часть модулей находится на стадии активного тестирования, а часть уже применяется в практических экспериментах по анализу влияния пользовательских сигналов на алгоритмы ранжирования. Подробности этих экспериментов можно найти в канале нашего партнера Олега Шестакова.
Кейс с виральным трафиком | Кейс с накруткой поведенческих факторов в Bing
Для нас Jija Lab интересна прежде всего не как инструмент автоматизации, а как экспериментальная среда, позволяющая изучать современный информационный поиск через призму поведения пользователя. Именно благодаря таким системам становится возможным исследование вопросов, которые ещё несколько лет назад невозможно было проверить эмпирически.
Ниже, я распишу более подробно о каждом из продуктов и возможно даже смогу предоставить доступ к некоторым из них. Отдельно отмечу, что вся дистрибуция функционала модулей Bing, Copilot,Google,Youtube происходит исключительно через сайт нашего партнера Олега Шестакова: BLACK FLAG SEO - We Are Not An Agency. We Are A Fleet.