Yesterday

Google’s New BlockRank

В исследовательской работе Google DeepMind предлагается новый алгоритм ранжирования результатов поиска на основе искусственного интеллекта под названием BlockRank, который настолько эффективен, что делает расширенный семантический поиск доступным не только для крупных компаний, но и для отдельных пользователей и организаций.

Контекстное ранжирование (ICR)

В исследовательской статье описывается прорыв в использовании контекстного ранжирования (ICR) — метода, при котором веб-страницы оцениваются с учетом контекстного понимания текста крупной языковой модели.

ICR использует три ключевых компонента:

  • Инструкции к заданию (например, «оцените эти веб-страницы»)
  • Документы-кандидаты (страницы, которые нужно ранжировать)
  • Поисковый запрос

Этот подход впервые был подробно изучен исследователями Google DeepMind и Google Research в 2024 году. Ранние эксперименты показали, что ICR может конкурировать по качеству с системами, специально разработанными для поиска информации.

Однако у метода был существенный недостаток — снижение производительности при увеличении числа документов. Крупная языковая модель (LLM), оценивая большое количество файлов, должна учитывать каждое слово и его связь с остальными предложениями, делая процесс крайне ресурсоемким, замедляя работу. Но новое исследование решает эту проблему, демонстрируя масштабируемое контекстное ранжирование с использованием BlockRank.

Принцип работы BlockRank

Исследователи изучили, как модель распределяет внимание при обработке документов, и выявили два ключевых паттерна:

Разреженность блоков между документами

Модель при чтении группы документов в основном фокусируется на каждом из них отдельно, а не на сравнении всех документов друг с другом. Исследователи называют это «разреженностью блоков». На основе этого они изменили способ обработки данных: теперь модель анализирует каждый документ отдельно, но при этом сопоставляет его с поисковым запросом. Такой подход сохраняет ключевую часть: соответствие запроса документу и исключает ненужные вычислительные операции, значительно ускоряя работу без потери точности.

Релевантность блока запроса и документа

При анализе запроса модель не оценивает все слова одинаково. Ключевые слова и знаки препинания, отражающие намерение пользователя, помогают определить, какой документ более важен. Модель обучена распознавать эти паттерны, чтобы эффективнее фокусироваться на релевантных документах.

Объединение этих подходов позволило создать BlockRank — метод, который исключает ненужные сравнения и учит модель фокусироваться на действительно значимых элементах для ранжирования.

Сравнительная эффективность

BlockRank тестировался на трех основных наборах данных:

  • BEIR — набор разнообразных поисковых и вопросно-ответных задач для проверки универсальности алгоритма
  • MS MARCO — большой набор реальных поисковых запросов и текстов, оценивающий точность ранжирования
  • Natural Questions (NQ) — тест на основе реальных поисковых вопросов Google, где система должна находить релевантные фрагменты из Википедии

Сравнение проводилось на модели Mistral LLM (7B параметров) с другими сильными системами ранжирования, включая FIRST, RankZephyr, RankVicuna и полностью настроенную базовую модель Mistral.

Результаты показали, что BlockRank не только соответствует, но часто превосходит другие модели по всем трем тестам, демонстрируя высокую точность и эффективность. Но результаты актуальны только для модели Mistral-7B и не тестировались на других LLM.

Применение и перспективы

В исследовании не сообщается, используется ли BlockRank в реальных продуктах Google, поэтому любые предположения о его коммерческом применении остаются спекулятивными.

Также BlockRank отличается от таких технологий, как FastSearch или RankEmbed, используемых в AI Mode, поэтому маловероятно, что он интегрирован в эти системы.

Сейчас BlockRank считается прорывной технологией, позволяющей расширить доступ к передовому семантическому ранжированию:

  • Эффективность и масштабируемость: метод снижает вычислительные затраты и делает контекстное ранжирование более доступным
  • Ускорение работы и улучшение качества поиска: предоставляет пользователю более релевантную информацию, ускоряя исследования и обучение
  • Энергоэффективность: снижает потребление ресурсов LLM, что способствует более устойчивому внедрению ИИ
  • Доступность для ограниченных ресурсов: позволяет использовать передовые технологии в средах с ограниченной вычислительной мощностью

Сейчас Google, судя по всему, планирует сделать BlockRank доступным на GitHub, но к настоящему времени кода в открытом доступе еще нет.

👍🏻 Инфа была полезной? Ставь лайк!

Всем конверта и ROI высоченного

Официальный сайт 👉🏻 rocketprofit.com

Наш Telegram-чат 👉🏻 t.me/rocketprofitchat