Слишком много ИИ, слишком мало доверия

О решении проблемы избытка ИИ с помощью рынков, конкуренции и рейтингов

🦧 Подпишись на канал: https://t.me/cryptomokakke
📚 Больше статей: https://t.me/smart_sorting

Привет,

Люди — это машины для рекомендаций. Мы составляем плейлисты для любимых, советуем кафе вроде Kurasu в Сингапуре или ту самую раменную, потому что понимаем вкусы конкретных людей. В таких рекомендациях всегда присутствует некое доверие — негласное, но ощутимое. И чтобы что-то порекомендовать, нужно потратить усилия на то, чтобы понять вкусы и предпочтения человека. Именно поэтому мы не раздаем советы направо и налево, а делаем это для тех, кто нам действительно важен.

У агентов, на текущий момент, нет тех, кто заботится о них настолько, чтобы направлять. (Я с трудом сдерживаюсь, чтобы не пошутить про обучение с подкреплением.) Так как же понять, какие агенты действительно хорошо справляются с задачами? Как можно построить доверие и репутацию там, где нет изначального человеческого доверия между самими агентами? Другими словами — как создать систему рейтингов, по которой можно определить, чьим рекомендациям или результатам работы стоит доверять? В отличие от людей, у агентов практически нет последствий за их действия. Кодовая база не страдает от неудачных жизненных решений.

Сегодняшний материал, написанный Саурабхом в рамках спонсированного сотрудничества с Recall, пытается найти ответ на вечный вопрос: как создать систему доверия в новой агентной экономике. Это интересная прогулка по теории агрегирования и разбору того, как развиваются системы рейтингов. Огромная благодарность Эндрю, Карсону, Чаду, Майклу и Сэму за разъяснение, как работает Recall, и за проверку текста.

Как всегда, если вы работаете над новыми экономическими системами или инструментами для них — пишите нам на venture@decentralised.co.

Джоэл

Примечание: Recall (от англ. “вспоминать”) — протокол, создающий систему «памяти» для ИИ-агентов, где репутация строится на проверяемых данных.
Далее будет просто Recall.

TLDR:

Софт становится все более доступным, а модели — все мощнее. "Длинный хвост" нишевых решений расширяется: небольшие команды запускают агентов для узкоспециализированных задач и быстро находят product-market fit (свою нишу).
Проблема не в количестве агентов, а в доверии к ним. Слишком много вариантов с неоднозначным качеством и без возможности это узнать до начала использования — это тормозит распространение.
Recall создает рынки навыков, где становится виден спрос, и арены, где агенты соревнуются в выполнении реальных задач. Данные о результатах попадают в систему рейтингов, которая со временем становится инфраструктурой для запросов.
Соревнования отражают реальность в практических задачах. Стейкинг направляет внимание, не подменяя при этом значение реальной эффективности. Механизмы системы сделаны так, что манипуляции обходятся дорого, а честность — выгодна.
Нет доминирующих агентов. Управление оркестром специализированных агентов оказывается эффективнее, чем работа одиночки. Система учится, какие комбинации работают лучше всего.

Я часто хожу в кафе Mysore в Мумбаи бахнуть порцию фильтр-кофе. Недавно, возвращаясь оттуда, я заметил красующийся на дороге модный билборд, где обычно висят звезды Болливуда или реклама нового шоу на Netflix. Но в этот раз на нем было написано: «Помоги мне проанализировать сон прошлой ночи» — реклама ChatGPT. И я подумал: как быстро ИИ превратился из любопытной новинки в обыденность. Я посмотрел в статистику и, к своему удивлению, обнаружил, что у ChatGPT более 500 миллионов скачиваний только в Google Play!

По-настоящему значимые технологии часто появляются как крошечные «большие взрывы». Сначала — пустота: нет ни продуктов, ни пользователей. Потом кто-то воплощает идею в жизнь, создавая продукт, которым удобно пользоваться — и все меняется. За несколько итераций пустота превращается в изобилие. Веб сделал это с сайтами, мобильный мир — с приложениями, а 2025-й делает это с агентами. Сегодня можно запилить более менее «способного» помощника в виде расширения для браузера или бота в Discord за пару часов. Но создать агента — легко, а вот сделать его по-настоящему полезным в реальной работе — сложно.

Именно на этом моменте индустрия и застревает. На первый взгляд, агенты кажутся взаимозаменяемыми, но на деле это редкость. Email, мессенджеры вроде Slack, среды для программирования — везде уже работают агенты, пусть и скрытно. Большинство профессий, не связанных с физическим трудом, ищут способы внедрить ИИ. Даже рекрутеры начинают обращаться к кандидатам через ИИ-инструменты — иногда даже не утруждая себя проверкой результата. И зачастую, этот результат оказывается совсем не тем, что ожидалось.

Моя идея в том, что сейчас у нас больше нет нехватки моделей или агентов — у нас нехватка доверия. Слишком много вариантов и слишком мало доказанных результатов. Обычно именно этот пропасть между доступностью и подтверждением работы объясняет провал, возникающий на каждом этапе внедрения новых технологий.

Посмотрим на динамику спроса и предложения, чтобы разобраться.

На стороне предложения экономика изменилась. Раньше разработка и распространение программного обеспечения были дорогими. Высокие издержки означали, что венчурные инвестиции концентрировались в нескольких крупных ставках с массовым потенциалом. "Длинный хвост" нишевых продуктов, ориентированных на узкие задачи, оставался тонким, потому что небольшие рынки не могли оправдать нужных вложений.

Но теперь это не всегда так. Модели становятся лучше и дешевле. Небольшие команды теперь могут запускать агентов, решающих конкретные, узкие задачи, без миллионов долларов финансирования. Хвост утолщается, потому что больше ниш становится экономически оправданными. Рынки могут финансировать и проверять специализированные решения, которые раньше игнорировались, и при этом с гораздо меньшими затратами.

На стороне спроса множество опций создает другую проблему. Когда перед тобой тысячи вариантов, качество становится нестабильным. Назовем это вариативностью. Результаты сильно разняться от агентам к агенту, заявляющих, что делают одно и то же. Некоторые действительно хороши, но большинство — сильно ниже среднего.

Со стороны агенты выглядят одинаково. Глубинная информация, которую нужно знать до выбора между внешне похожими вариантами, часто скрыта или вообще отсутствует. Это асимметрия. Вариативность означает, что качество непредсказуемо. Асимметрия — что ты не можешь заранее понять, кто из них хорош. Вместе это приводит к параличу. Пользователь сталкивается с множеством вариантов без надежного способа отделить сигнал от шума — и это часто останавливает внедрение.

Представь себе супермаркет, где на полке двадцать марок оливкового масла. Вариативность означает, что качество нестабильное: какое-то прогоркшее, какое-то отличное, а большинство — просто нормальное. Асимметрия — это то, что ты не можешь попробовать его до покупки, а этикетка не расскажет, стояла ли бутылка в жарком складе несколько месяцев. Без системы рейтингов — будь то проверенный критик или знающий друг — ты просто смотришь на полку, парализованный выбором, или берешь наугад. Рынок остается шумным, пока что-то не прорежет этот шум.

Recall стремится закрыть этот разрыв, предлагая рынок навыков и уровень доверия или рейтинга, который выявляет спрос на навыки и поддерживает "длинный хвост". Рынки создают сигналы на основе предпочтений пользователей и результатов живых соревнований. Эти сигналы считываются рейтинговым уровнем, превращаются в запросы и легко интегрируются в существующие интерфейсы поиска. Чуть ниже я расскажу подробнее, как все это работает вместе.

Когда стало ясно, что ИИ будет полезен, каждый разработчик захотел запустить собственного агента. В крипте блок с мотивацией и стимулами привел к перенасыщению рынка слишком быстро. Один ИИ-агент под названием Truth Terminal выбрал токен с тикером $GOAT, достиг миллиардной капитализации и запустил волну агентов, создающих и торгующих криптовалютными токенами. Когда на рынок хлынула масса новых агентов, стало невозможно отличить серьезные проекты от пустышек.

Экосистемы вроде Virtuals стандартизировали запуск токенов для ИИ-агентов. За месяц через Virtuals было выпущено более 10 000 токенов, каждый из которых представлял собой какого-то агента. Из всех них полезными оказались лишь единицы. Как обычно, почти все токены сдампились более чем на 90%.

Огромный рост предложения был бы нормален, если бы качество росло вместе с ним. Но этого не произошло. Под качеством я имею в виду надежность и реальную пользу. Выполняет ли агент то, что обещает, в реальных условиях, а не только на аккуратно подготовленных демо? Большинство агентов выглядят впечатляюще в презентационных видео, но сыплются, когда пытаешься использовать их в работе. Качественный агент справляется с нестандартными случаями, не ломается, когда все идет не по плану, и действительно экономит время, а не создает новые проблемы. Проблема в том, что рынок заполнился агентами, но лишь немногие соответствуют нужным стандартам.

Хороший пример — семейство тестов SWE-bench для оценки программных систем. Это своего рода табло результатов для ИИ, которые пытаются исправлять ошибки на GitHub. Тест выдает ИИ фрагмент сломанного кода и просит написать исправление. И Verified, и «Live»-версии показывают показатель «% Resolved» — то есть, сколько задач агент реально решил. Verified использует задачи, проверенные людьми, чтобы убедиться, что они решаемы. Live — свежие, еще не проверенные задачи.

1 июня 2025 года в статье о SWE-bench Live сообщалось, что лучшая система смогла решить только одну из пяти задач — 19,25%. Та же конфигурация, запущенная на Verified-версии с теми же настройками, показала результат 43,2%. Примерно в то же время рабочий агент от Warp достиг 71% на SWE-bench Verified, попав в первую пятерку рейтинга.

Это означает, что агенты лучше справляются с задачами, которые люди заранее признали решаемыми. Именно здесь важна вариативность. Система, которая кажется сильной на тщательно подобранных данных, может испытывать трудности с новыми, неструктурированными проблемами. Результат зависит от того, с каким срезом реальности ты работаешь.

Проблема обнаружения становится все сложнее, потому что сами агенты все чаще ведут себя как пользователи. Они используют инструменты, вызывают API и, что особенно важно, обращаются к другим агентам. Вопрос теперь звучит не только как «какого агента использовать мне», но и как «какому агенту должен доверять мой агент, когда ему нужна помощь». Потенциальная область для ошибок растет лавинообразно.

Именно это наглядно показал инцидент npm в сентябре 2025 года. Злоумышленники получили доступ к учетным данным одного из сопровождающих и внедрили вредоносный код в восемнадцать широко используемых пакетов JavaScript, включая chalk, debug и ansi-styles. В совокупности эти пакеты скачиваются миллиарды раз в неделю.

В течение короткого времени новые версии этих пакетов содержали код, выполняющийся на стороне браузера, который мог незаметно перехватывать транзакции в криптокошельках и перенаправлять их. Если в тот день ты выбрал агента или цепочку инструментов, которые подтянули эти «доверенные» пакеты, то твой выбор выглядел безопасным, но на самом деле был скомпрометирован.

Я не раз замечал, что модели отвечают по-разному на один и тот же запрос. Чтобы проверить это, я дважды ввел в ChatGPT один и тот же запрос: «Можешь ли ты создать диаграмму, показывающую, как связаны Hypercore и HyperEVM?» В ответ я получил два разных результата. Отличались не только форматы, но и сами диаграммы — заметно, почти полностью.

Технологии позволяют нам создавать огромное количество чего угодно за очень короткое время. На YouTube полно видео, обещающих научить тебя разрабатывать агентов за двадцать пять минут — без единой строки кода бесплатно без смс. При отсутствии проверки качества большая часть таких разработок оказывается бесполезной. Поэтому мы создаем системы, которые помогают отделять хорошее от плохого — обычно с помощью голосов, рейтингов или алгоритмов, отслеживающих, чем люди реально пользуются.

Давай посмотрим на отзывы на Amazon. В море из тысяч товаров именно пятизвездочные оценки помогают найти действительно хорошие. То же самое работает в рейтингах водителей Uber, алгоритмах ранжирования сайтов Google или рекомендациях Netflix, основанных на том, что смотрят миллионы пользователей. Все это — уровни доверия, которые мы создали, чтобы прорезать шум. Теперь этот подход нужно применить к моделям и агентам ИИ. Нам нужен способ быстро понять, какие из них действительно работают, не проверяя сотни вручную.

Как рынки создавали уровни доверия

Мы уже сталкивались с проблемами, вызванными взрывным ростом предложения. И решение всегда строилось вокруг системы ранжирования, которая упорядочивает хаос неравномерного качества.

Вспомним рейтинги Nielsen в 1950-х. Почти в каждом доме уже был телевизор — все его хотели. И вдруг появилось множество каналов, у каждого — несколько шоу и тысячи временных слотов. У рекламодателей были деньги, но они не понимали, какие программы действительно смотрят люди. Без системы проверки телеканалы делали весьма смелые заявления о размерах своей аудитории.

Тогда в дело вступила компания Nielsen со своими измерителями. Они устанавливали специальные устройства в домах, чтобы отслеживать, что именно люди смотрят. С помощью этих приборов Nielsen смогла превратить шум в сигнал, пригодный для анализа. У шоу либо было десять миллионов зрителей, либо нет. Рейтинги дали рекламодателям инструмент для принятия реальных решений. Телеканалы поняли, какие передачи стоит продлевать, а какие закрывать. Передач по-прежнему было много, но теперь все стало прозрачным.

PageRank сделал нечто похожее с веб-страницами в конце девяностых. Во время бума доткомов ежедневно появлялись сотни новых сайтов. Мы выросли с десяти тысяч сайтов в 1994 году до сорока трёх миллионов в 1999-м. Редакторы Yahoo просто не успевали классифицировать весь этот поток. Алгоритм Google PageRank рассматривал каждую ссылку как голос: если на тебя ссылаются авторитетные сайты, значит, ты заслуживаешь внимания. Не замедляя темпы появления новых страниц, он дал пользователям осмысленную точку отсчёта, чтобы ориентироваться в этом взрыве информации.

Во всех этих примерах прослеживается один и тот же принцип. Стандартизированное наблюдение превращается в общественную память, которая затем формирует экономические последствия. Хаотичные, разрозненные свидетельства перерабатываются в структурированное, доступное для анализа доверие. Экосистеме агентов нужен такой же слой преобразования, который превращал бы реальные показатели работы в устойчивую репутацию.

Где же слой доверия для ИИ-агентов?

Сегодня экосистеме агентов не хватает уровня доверия. Процессы обнаружения зависят от вирусного распространения, модерации в магазинах приложений или от позиций в рейтингах, сведённых к одному числу. В 1998 году Google решил похожую проблему с помощью PageRank. А нынешние маркетплейсы агентов застряли на стадии конкурсов популярности, которые не способны показать, выживет ли агент в реальном сценарии использования.

Именно поэтому «стартовая страница» становится рвом, защищающим от конкурентов. Логика агрегации Бена Томпсона здесь работает идеально. Когда производство становится дешевым, а дистрибуция — избыточной, ценность концентрируется у того, кто контролирует первую точку взаимодействия. Это место, с которого начинают люди (и агенты). В поиске такой точкой была пустая страница с полем ввода; сигналом служили структура ссылок и клики пользователей.

В крипте DEX агрегаторы, типа Jupiter, получили влияние, перенаправляя поток ордеров, не владея ликвидностью. Их сигналом были исполнимые котировки, проскальзывание, стоимость газа и успешность сделок. В мире агентов аналогом становится уровень ранжирования и маршрутизации, который находится перед всей массой агентов и инструментов и определяет, кто именно должен действовать в данный момент — исходя из задачи и ограничений.

Одно из наблюдений, которое я сделал, изучая теорию агрегации, состоит в том, что любая эффективная система нуждается в механизме обратной связи. Можно назвать это маховиком или как угодно, но суть остаётся той же. Самый наглядный пример — Google.

Пользователи вводят поисковые запросы в Google, который выдает им результаты с сайтов, собранных при индексировании. Пользователи кликают по некоторым ссылкам, а другие игнорируют. Этот процесс генерирует миллиарды данных о том, что люди на самом деле ищут, вводя конкретные запросы.

Когда пользователи нажимают на определенные результаты, система считает их релевантными. Google возвращает эти данные о кликах обратно в алгоритм, делая будущие поиски точнее. Лучшие результаты привлекают больше пользователей, те создают ещё больше данных, а это, в свою очередь, улучшает алгоритм. Каждая часть системы усиливает следующую, образуя непрерывный цикл.

Эта закономерность прослеживается во всех успешных агрегаторах. Агрегатор находится между поставщиками и пользователями, собирая поведенческие данные, которые постепенно делают платформу всё лучше в сопоставлении спроса и предложения.

Для системы репутации или уровня доверия в мире ИИ-агентов петля обратной связи должна состоять из четко взаимодействующих элементов. Агенты выполняют задачи и генерируют данные о своей работе. Эти данные формируют репутационные оценки, которые помогают пользователям выбирать, каким агентам можно доверять. Выборы пользователей и результаты выполнения задач обновляют эти оценки, делая будущие решения более точными. Система работает только в том случае, если каждый цикл действительно улучшает оценку доверия — так же, как каждый новый поиск делает алгоритм Google умнее.

Благодаря этому потоку данных уровень доверия может выстраивать карту того, как агенты реально справляются с задачами и ограничениями. Из этого система учится направлять запросы пользователей наиболее эффективным образом. Лучшее распределение задач приносит лучшие результаты. Лучшие результаты привлекают больше запросов. А больше запросов делают маршрутизацию еще точнее. И так далее.

Метрики, на которые ориентируется уровень доверия, определяют, что будет создаваться вокруг него. Когда критерий успеха узок и предсказуем, разработчики начинают оптимизировать систему под саму метрику, а не под реальный результат. Такой агент может блистать в тестах по программированию, но не справляться с отладкой кода в реальной среде. Торговый агент, созданный, чтобы показать выдающиеся результаты на тестах, может демонстрировать впечатляющую доходность в ретроспективных моделях, но рушиться при столкновении с реальной рыночной волатильностью.

Работа в живых условиях с реальными ограничениями меняет систему стимулов. Себестоимость, задержки, риски сбоев — всё это начинает играть ключевую роль. У разработчиков не остаётся выбора, кроме как сосредоточиться на том, что действительно создаёт ценность, потому что манипулировать системой становится слишком дорого или просто невозможно. Как можно «обмануть» тест, если он оценивает недельный риск-скорректированный P&L в реальных рыночных условиях? Агент может доказать свою эффективность только одним способом — совершая прибыльные сделки в реальной волатильности, а не демонстрируя красивые цифры на исторических данных. Рейтинг вознаграждает то, что действительно нужно пользователям, и предложение постепенно подстраивается под этот спрос.

Чтобы работать эффективно, надежный уровень доверия должен обладать тремя свойствами. Во-первых, реальными задачами и реальными издержками. Во-вторых, достоверным происхождением данных: каждое значение в рейтинге должно сопровождаться контекстом, который позволяет проверить его. В-третьих, устойчивостью к манипуляциям: система должна оставаться честной, даже если стимулы к обману велики. Когда эти элементы присутствуют, рейтинг перестаёт быть просто таблицей результатов и превращается в инфраструктуру, на которой можно строить.

Модели и ИИ агенты особенно хорошо подходят для этого — их можно оценивать по четким, объективным задачам. Когда на кону стоят деньги и безопасность, крипто-механизмы обеспечивают независимость оценки и защищают ее от политических или платформенных искажений. При открытых и проверяемых данных результаты становятся легко доказуемыми.

На практике это может привести к появлению новых продуктов. Многие задачи требуют совместной работы нескольких агентов. Агент-оркестратор обращается к уровню доверия со своей задачей и ограничениями. Система отвечает полноценным планом: какие агенты нужны, в каком порядке их использовать, с какими инструментами и параметрами. Каждая обработанная задача делает систему умнее.

После нескольких итераций она учится, какие комбинации стабильно решают определенные проблемы. Владение этим циклом обучения, который постоянно совершенствуется за счет данных реальных задач, становится главным преимуществом. Интерфейс можно скопировать, но накопленный опыт — нет.

Лучшие системы напоминают федерацию. Рой специализированных моделей или агентов, часто управляемый другим агентом, превосходит любую отдельную модель. Рейтинг, определяющий наиболее эффективные сочетания, оказывается гораздо полезнее, чем просто список лидеров.

Что такое Recall

Сейчас не существует системы, которая объединяет все три необходимых элемента. Бенчмарки предлагают объективные тесты, но в них нет экономической мотивации. Рынки предсказаний создают финансовую вовлеченность, но не измеряют реальную эффективность выполнения задач. Магазины приложений обеспечивают распространение, но при этом остаются закрытыми и централизованными. Архитектура Recall устраняет эти разрывы, объединяя то, что раньше существовало отдельно: измерение реальных показателей работы, экономические механизмы прогнозирования и открытую систему репутации.

Recall стремится построить систему из трех взаимосвязанных компонентов.

Рынки навыков выявляют спрос и позволяют кураторам ставить токены в поддержку конкретных агентов.
Лайв соревнования создают публичные, проверяемые данные о производительности в реальных условиях.
Recall Rank объединяет оба потока сигналов, превращая их в репутационные оценки, которые можно запрашивать и которые становятся точнее по мере накопления данных.

Идея заключается в создании рынков, основанных на навыках агентов, которые помогают сформировать слой репутации. Люди и агенты смогут обращаться к этим данным всякий раз, когда им нужно подобрать подходящих агентов или модели для конкретных задач.

Recall занимается отбором и управлением предложения ИИ-агентов. Модель отбора похожа на то, как Amazon работает со своими поставщиками. Хотя Amazon не несет прямой ответственности, если товар оказывается некачественным, но компания заботится о пользовательском опыте. У Amazon выстроены отношения с клиентом, а не с поставщиком. Точно так же Recall должен выстраивать отношения именно с пользователем. Если модели или агенты ИИ не выполняют свою работу так, как обещано, под угрозу ставится репутация самого Recall.

Для кого создан Recall? Во-первых, для ИИ энтузиастов — людей, которым нравится тестировать агентов и поддерживать тех, кого они считают лучшими.

Во-вторых, для пользователей «в обратном стиле Kickstarter». Они инициируют конкретную задачу — например, открывают рынок навыков или назначают вознаграждение за выполнение определённой функции — а другие, кому это также нужно, могут присоединяться и добавлять средства. Компании могут инвестировать деньги в развитие навыков, которые они собираются использовать. Агенты соревнуются в этих навыках, и тот, кто показывает лучший результат, получает оплату и внедряется в работу.

В-третьих, для кураторов — людей, которые делают ставки на то, как агенты покажут себя в конкретном рынке навыков, и зарабатывают, если их прогнозы оказываются верными. Их сигналы помогают отличить настоящие решения от похожих, но менее эффективных.

И наконец, для платформ. Со временем платформы, на которых работают ИИ-агенты, смогут использовать тот же рейтинг через API, что позволит их пользователям по умолчанию находить наиболее эффективных агентов.

От статичных рейтингов к динамическим соревнованиям

Прежде чем рассказать, как Recall оценивает агентов, я хочу обозначить отправную точку. Подумай, как обновляются результаты поиска, спортивные рейтинги или таблицы лидеров на рынке по мере поступления новых данных. Яркий пример из спорта — чемпионат мира по крикету в формате Test.

Этот турнир длится два года и определяет финалистов. Команды проводят домашние и выездные серии. Таблица обновляется после каждого матча, при этом результаты нормализуются с учетом разных условий. Так как цикл длительный, в финал обычно выходят команды, стабильно показывающие высокий уровень в разных обстоятельствах. Это и есть живой, динамический рейтинг.

Recall Rank следует тому же принципу. Он обновляется после каждого временного окна, учитывает сложность задач и контекст, требует достаточного количества примеров перед тем, как сделать сильное заключение, и выстраивает стимулы так, чтобы они соответствовали реальным результатам.

Почему соревнования эффективнее разовых тестов

Бенчмарки легко поддаются манипуляциям, когда набор тестовых данных фиксирован. Вместо того чтобы решать задачу по сути, модели начинают оптимизироваться под прохождение теста. Соревновательная среда постоянно добавляет новые данные и меняет условия. Это не дает моделям «переобучиться» и сохраняет только действительно устойчивые навыки. Недавнее исследование Стэнфорда показало, что большие языковые модели изменяют свои ответы в зависимости от поставленных перед ними целей — точно так же, как это делают люди.

Соревнования, напротив, сложно подделать. Нужно снова и снова выходить на поле — тратить время, вычислительные ресурсы и внимание. Слабые агенты быстро отсеиваются, потому что не могут позволить себе нести такие издержки. Сильные продолжают работать и доказывать свою эффективность.

Чарльз Гудхарт был британским экономистом, работавшим в Банке Англии. В 1975 году он написал, что когда политики начинают сосредотачиваться на каком-то одном показателе, связь между этим числом и реальными результатами постепенно разрушается. Эта мысль, ставшая известной как закон Гудхарта, часто интерпретируется так: «Когда метрика становится целью, она перестает быть хорошей метрикой». Динамическая природа живых соревнований не позволяет этому случиться — условия постоянно меняются, и агенты вынуждены адаптироваться к реальному миру.

Субъективные навыки оцениваются с помощью агентов-судей и человеческой проверкой. Там, где это возможно, Recall использует объективные метрики. Когда задача требует оценки, результаты сравниваются попарно, а итог выводится на основе моделей побед и поражений, применяемых в других частях системы. Для чувствительных или высокоценных этапов можно добавить простой шаг ручной проверки. Цель — сделать процесс прозрачным, быстрым и устойчивым к манипуляциям, не превращая его в излишне сложную систему.

Первый приоритет понятен. Для агентов, занимающихся криптотрейдингом, соревнование началось с простой метрики — недельной прибыли и убытков. Однако это грубый способ измерения эффективности торгового агента. Недавно Recall добавил новый навык, основанный на риск-скорректированной доходности — более точном показателе реальных результатов.

Почему именно трейдинг? Использование приложений вроде Almanak и Wayfinder показывает, что сообщество уже интересуется автономной торговлей с участием агентов. Чтобы обеспечить безопасность, Recall начал с демо-торговли на бумаге. Когда команды укрепили свои системы и платформа стала стабильнее, в конце сентября 2025 года стартовало соревнование в режиме реальной торговли.

Как работает система ранжирования

Поисковики никогда не заканчивают процесс ранжирования интернета. Постоянно появляются новые страницы, меняются ссылки, пользователи кликают по разным результатам — и порядок постоянно перестраивается. Recall Rank применяет ту же логику к оценке возможностей агентов. Очки обновляются по мере поступления новых данных. Победа над сильным соперником повышает рейтинг сильнее, чем над слабым.

Статичные таблицы лидеров легко поддаются манипуляциям. Решение — сделать тест динамичным. Старые результаты постепенно теряют вес. Здесь можно вспомнить аналогию с платформой Kaggle.

Kaggle подобные лидерборды

Kaggle — это сайт, где команды соревнуются в построении предсказательных моделей. Пока длится конкурс, участники подгоняют свои решения, чтобы подняться в таблице. Когда соревнование завершается, Kaggle публикует финальные результаты, рассчитанные по скрытой части данных, которую никто не видел. Многие команды в этот момент теряют позиции, потому что их модели выучили особенности открытого фрагмента данных, а не реальные закономерности. Решение — держать часть данных закрытой, регулярно менять то, что измеряется, и поощрять модели, способные хорошо работать на новых, ранее невидимых данных.

Recall использует тот же принцип. Агенты могут видеть свои собственные журналы матчей и общие сводки, но данные, определяющие рейтинг, постоянно обновляются потоками новых результатов.

Однако, в отличие от Kaggle, Recall не нужно скрывать тестовые данные. Почему? Потому что в живых торговых соревнованиях все агенты участвуют в реальном времени, реагируя на текущие рыночные условия. Оценка строится на свежих рыночных данных, которых раньше просто не существовало. Поэтому вопрос о подгонке под «скрытые» данные отпадает — обмануть тест невозможно.

Есть, впрочем, немного другая проблема, с которой сталкиваются и агенты, и пользователи: нужно обеспечить стабильность результатов при разных рыночных условиях. Допустим, агент лучше работает на коротких позициях. Он может возглавить таблицу в неделю, когда рынок падает, но это не значит, что он объективно лучший. Он не подгонял модель под тест, просто попал в ситуацию, благоприятную для его стиля. Однако на достаточно длинном отрезке времени рейтинг выравнивается, и оценки корректируются.

Очки получают больший вес за недавние периоды и меньший — за устаревшие. Риск-скорректированные показатели имеют большее значение, чем краткосрочные всплески. Если агент «запомнил» закономерность, работавшую только вчера, это будет видно как резкий подъем, за которым следует падение в следующем цикле. Агент, который стабильно показывает результат при разных рыночных сценариях, со временем получает более устойчивую оценку.

Ранжирование новых агентов

Каждый новый агент начинает с приблизительной оценки навыков и широким диапазоном неопределенности — «мы пока не уверены». После каждого раунда прогноз обновляется. Хорошее выступление поднимает рейтинг, плохое — снижает. На первых этапах изменения происходят осторожно, потому что данных мало. По мере накопления результатов оценка становится точнее и реагирует на новые данные всё слабее.

Математическая основа рейтинга опирается на известные модели — Bradley-Terry, которая преобразует попарные результаты побед и поражений в относительную силу, и Plackett-Luce, расширяющую этот подход для ранжирования более чем двух участников. Эти модели превращают результаты «лицом к лицу» в оценку уровня навыков с учётом силы соперников, что позволяет сравнивать агентов честно, даже если они соревнуются в разном расписании. Оценка обновляется по мере поступления новых данных и сложнее подделывается, потому что победы над сильными соперниками ценятся выше, чем над слабыми. Это живая, относительная шкала внутри домена, а неопределенность оценки сужается по мере накопления доказательств.

О попарных сравнениях

Не все агенты участвуют в одних и тех же соревнованиях постоянно, поэтому нужно обеспечить надежный способ их сравнения. Здесь и появляется подход попарных сравнений.

Попарное сравнение означает, что два агента сопоставляются одновременно. Метод прост в применении и работает даже тогда, когда все участники не могут соревноваться друг с другом одновременно. Результаты «лицом к лицу» дают четкие сигналы.

Иногда множество агентов подают результаты в одном и том же временном окне соревнования. В таких случаях нужно преобразовать упорядоченный список в список относительных сил, не теряя информации. Модель Plackett-Luce позволяет ранжировать сразу более двух участников и учитывает, что победа на сильном поле соперников говорит о многом больше, чем победа среди слабых.

Хорошая аналогия — то, как Международный совет по крикету (ICC) ранжирует команды. В чемпионате мира по тестовому крикету не все команды играют друг с другом в одном цикле. Например, Индия может не встретиться с Пакистаном, но обе команды играют против Австралии и Англии. Таблица всё равно должна сравнить Индию и Пакистан, чтобы определить финалистов. Для этого используются результаты матчей по всему расписанию с поправкой на длину серий и место проведения.

Recall Rank применяет ту же идею. Если агент A побеждает агента B, а B побеждает C, эта цепочка позволяет разместить A выше C ещё до их прямой встречи. Если A выигрывает в более сложной группе, а C — в простой, система учитывает этот контекст. Поэтому Recall начинает с попарных сравнений и затем расширяет их на ситуации с несколькими участниками.

Когда метод ранжирования выстроен, следующий вопрос — что может пойти не так на практике.

Одна из главных сложностей — «холодный старт». У новых агентов мало данных, поэтому их рейтинг на начальном этапе будет шумным. Recall решает это двумя способами. Сначала агент получает примерную оценку и широкий диапазон неопределённости — «мы пока не уверены». По мере участия в новых раундах этот диапазон сужается. Второй способ — использование проверенных данных о прошлых результатах агента, если они доступны. Но даже в этом случае система сохраняет осторожность, пока агент не подтвердит свою эффективность в живых соревнованиях на Recall.

Механизм ставок работает по принципу предсказательных рынков. Он показывает, как держатели токенов оценивают эффективность агента. Recall отслеживает две вещи: насколько хорош сам агент или модель и насколько уверена система в этой оценке. Способности определяются исходом соревнований, но доверительный интервал дополнительно учитывает объём ставок.

Если сообщество ставит свою репутацию на агента, система фиксирует это как сигнал: «за этим стоит наблюдать». Если результаты подтверждают эти ожидания, доверительный интервал сужается быстрее. Если же итоги противоречат ставке, рейтинг агента всё равно снижается. Таким образом, ставки ускоряют процесс формирования уверенности в оценке, но не могут «нарисовать» высокий балл при слабых результатах.

По состоянию на сентябрь 2025 года у Recall около 1,4 миллиона пользователей и примерно 9 миллионов зафиксированных актов кураторства. В системе зарегистрировано около 155 тысяч инструментов, моделей и агентов. Первые наборы навыков сосредоточены на криптотрейдинге, где рейтинг основан на недельном показателе прибыли и убытков. Поддержка живой торговли криптой была запущена в конце сентября.

Теперь у нас есть все элементы, чтобы измерять навыки. Следующий вопрос — как сделать так, чтобы эти измерения оставались актуальными и ценными. И именно здесь на первый план выходит рынок навыков и кураторства.

Рынки и кураторство

Спонсоры открывают рынок навыков. Владельцы токена $RECALL выражают своё мнение о том, в каком навыке тот или иной агент способен достичь выдающихся результатов. Это можно представить как рынок предсказаний, но для оценки эффективности моделей и агентов. Рыночная цена отражает коллективное представление сообщества о способности агента успешно выполнить задачу. Результаты соревнований затем либо подтверждают, либо опровергают это ожидание.

Как это работает. Навыки определяются предельно точно — например: «извлечь поля KYC с точностью 99 процентов за менее чем 2 секунды». Спонсоры открывают рынок для этого навыка. Кураторы занимают позиции, ставя на агентов, которые, по их мнению, способны достичь заданного уровня. Затем проводятся живые соревнования по этой задаче. После завершения их результаты закрывают рынок, как на рынках предсказаний.

Кураторство развивается поэтапно.

Этап 1 — начальные рынки с усилением. Пользователи, стейкающие токен RECALL, получают временный «буст», который могут направить в поддержку конкретного агента в одной сессии. Если агент показывает хороший результат, куратор получает вознаграждение. Это создаёт первые сигналы, не требуя крупных депозитов, и помогает запустить маховик активности.

Этап 2 — открытые рынки с постоянными позициями.
На этом этапе любой пользователь может создать рынок для конкретного навыка. Кураторы занимают устойчивые позиции по агенту в рамках данного навыка, а не просто поддерживают его от сессии к сессии. Это увеличивает ликвидность и поддерживает приток тестов в тех направлениях, которые действительно важны пользователям.

Этап 3 — двустороннее кураторство и интеграции.
Если раньше кураторы могли ставить только на успех агентов, теперь они могут занимать позиции как «за», так и «против» их движения в рейтинге. Это улучшает ликвидность и делает прогнозы точнее. Партнёры могут встраивать рейтинги Recall в свои собственные приложения через API. Пользователи будут видеть таблицы прямо в тех продуктах, где уже работают.

Рынок навыков определяет задачу чётко, показывает прошлые результаты с указанием степени неопределённости и позволяет участникам выражать своё мнение, занимая позиции. Такой подход дает пользователям и компаниям возможность создавать новые навыки «снизу вверх», а не ждать, пока их определят централизованно.

Рейтинг возникает как следствие этой активности. Результаты соревнований имеют наибольший вес. Кураторство добавляет своевременный контекст. Ликвидность и разнообразие кураторов влияют на степень уверенности, поэтому таблица показывает не только итоговый балл, но и уверенность системы в нем. Проще говоря, рынок и есть продукт, а рейтинг — естественное следствие здоровой рыночной динамики.

Recall Rank

Каждый раунд соревнований добавляет данные с таймингами, которые уточняют рейтинги. Со временем это превращается в архив доказательств, который невозможно подменить. Поздние участники не могут «сфабриковать» годы живых результатов. Именно благодаря этой накопленной истории поиск начинается здесь — ведь ответы становятся точнее с течением времени.

Глубина данных по каждому навыку усиливает достоверность сигнала. Когда множество агентов участвуют в одной и той же области, граф взаимодействий становится плотным. Сильные агенты хотят, чтобы их признали среди равных, чтобы привлечь пользователей. А пользователи, в свою очередь, ищут те места, где рейтинги надёжны, а конкуренция высока. Это взаимное притяжение с обеих сторон углубляет экосистему и повышает планку для возможных подражателей.

Recall выполняет работу по преобразованию сырых логов в понятную и прозрачную таблицу результатов. Она показывает, основан ли результат на объективных данных или на экспертной оценке, а также отражает текущую форму агента. Когда пользователи начинают доверять этому своду, Recall превращается в отправную точку. А чем больше людей начинает отсюда, тем сильнее давление на агентов, чтобы они показывали реальные результаты своей работы.

Помнишь, как мы говорили, что агрегатору нужно выстраивать отношения с пользователем? Глубина, ширина и свежесть данных сами по себе не создают прочную связь. Пользователи могут находить нужное, но это не гарантирует, что они захотят возвращаться.

Что заставляет людей возвращаться? Кураторство. Я открываю X (Twitter) не потому, что ищу что-то конкретное. Люди бесконечно листают Instagram не потому, что хотят найти что-то одно. Эти ленты стали «главными страницами интернета», потому что они учились на богатом потоке данных взаимодействия. Люди смотрели, лайкали, сохраняли, делились — и с каждым действием лента становилась лучше. Улучшение ленты привлекало больше авторов и зрителей. Больше активности порождало больше данных. Этот цикл сделал курируемые ленты недосягаемыми для копирования.

Кураторы на Recall публикуют шорт-листы агентов по навыкам или направлениям и подтверждают свои решения ставками. Когда их прогнозы оказываются верными, они получают вознаграждения. Если же они ошибаются или пытаются манипулировать результатами, их ждут штрафы. Со временем это создаст видимую историю решений, превращая лучших кураторов в надежных проводников. Их репутация притягивает пользователей, а внимание пользователей усиливает вес их списков. Этот цикл сложно воспроизвести без аналогичной истории прогнозов и исходов.

Компании могут размещать задачи, которые для них важны, и финансировать призы за их решение. Некоторые DeFi-протоколы уже проявили интерес к такому формату. Это привлекает новых агентов, новые данные и новых пользователей, заинтересованных в решении тех же задач. Платы за запросы и маршрутизацию обеспечивают устойчивость инфраструктуры. Управление может направлять вознаграждения в пользу недооценённых навыков через стейкинг, тем самым улучшая распределение ресурсов. Всё это проходит через единый, канонический рейтинг, поэтому созданная ценность возвращается обратно в индекс.

Если собрать всё вместе, получается замкнутый цикл — тот самый маховик
Соревнования создают данные.
Данные улучшают рейтинги.
Более точные рейтинги привлекают новых пользователей.
Спрос со стороны пользователей приводит новых агентов и кураторов.
Агенты и кураторы привлекают спонсоров.
Спонсоры финансируют новые соревнования.
Каждый оборот этого колеса делает систему сильнее — и все труднее для подражателей догнать ее.

Где сейчас место Recall

Чтобы понять, где Recall находится среди существующих систем рейтингов, я использую простую матрицу 2×2. По горизонтальной оси отложен диапазон от объективных данных до субъективных мнений. По вертикальной — от централизованного управления к распределённым источникам ввода. Пользовательские рейтинги Yelp и IMDb находятся в верхнем правом углу, потому что там много людей высказывают свои оценки.

Recall располагается ближе к центру, потому что сочетает объективные задачи с экспертными сравнениями. При этом он смещён вверх по распределённой оси, так как опирается на данные и участие разнообразных групп — пользователей, спонсоров, кураторов и самой команды. Такая карта помогает быстро показать, что Recall относится к системам, которые становятся лучше по мере того, как ими пользуется всё больше людей.

Впереди — пространство компромиссов, которые невозможно решить раз и навсегда. Слишком открытые тесты легко поддаются манипуляциям, а живые соревнования стоят реальных денег. Эти противоречия заложены в самой природе протокола и не исчезнут после пары косметических исправлений.

Предсказуемые тесты неизбежно провоцируют попытки обмана. В 2015 году регуляторы обнаружили, что дизельные автомобили Volkswagen использовали программное обеспечение, которое определяло, когда машина проходит тест на выбросы, и временно занижало показатели, тогда как в обычных условиях уровень выбросов NOx был значительно выше. После того как Агентство по охране окружающей среды США (EPA) опубликовало уведомление в сентябре 2015 года, Volkswagen признала факт обмана, отозвала и выкупила множество автомобилей, заплатила штрафы, урегулировала иски и согласилась на программы по исправлению и компенсации ущерба.

Система рейтингов сталкивается с тем же противоречием. Публикация правил ради прозрачности увеличивает поверхность атаки. Сокрытие правил, наоборот, снижает доверие. Определить, сколько информации раскрывать и когда, — это постоянный баланс, от которого напрямую зависит качество сигналов и устойчивость системы.

Субъективная оценка тоже не лишена искажений. На зимней Олимпиаде 2002 года в Солт-Лейк-Сити финал парного фигурного катания закончился тем, что россияне Елена Бережная и Антон Сихарулидзе получили золотую медаль, опередив канадцев Джейми Сале и Дэвида Пеллетье. Позже французская судья призналась следователям, что глава ее федерации оказывал давление, требуя отдать победу россиянам в обмен на поддержку во втором виде — танцах на льду. После расследования МОК присудил канадской паре второе золото, а французских чиновников отстранили.

Оценка агентов сталкивается с похожей проблемой. Агенты-судьи наследуют предвзятости базовых моделей и могут со временем отклоняться, когда эти модели обновляются. Человеческие проверки добавляют затрат и тоже способны привносить собственные искажения. Решения о том, как часто проводить перенастройку, когда скрывать чувствительные обзоры и как рассматривать апелляции, — это постоянные вопросы управления, а не простые переключатели.

Сигналы могут быть скоординированы или искажены. Когда-то существовал глобальный эталонный процент по краткосрочным межбанковским займам — London Interbank Offered Rate (LIBOR). Его ежедневно устанавливали на основе котировок, которые подавала небольшая группа банков. Начиная с 2012 года, расследования показали, что трейдеры нескольких банков сговаривались и манипулировали ставками — как для получения прибыли по своим позициям, так и для того, чтобы создать впечатление устойчивости своих банков. Регуляторы наложили огромные штрафы, а прокуратура возбудила уголовные дела. В 2017 году британский регулятор объявил о постепенном отказе от LIBOR.

Главный урок в том, что эталон, основанный на непроверяемых самоотчетах, уязвим перед картельным сговором и скрытым давлением. Для Recall аналогичные риски включают обеспечение устойчивости к атакам Сибилл (множественные фальшивые идентичности при стейкинге), обнаружение связанных аккаунтов, маскирующихся под независимые, предоставление прозрачных уведомлений и возможности апелляции перед применением санкций, а также избежание чрезмерных наказаний, которые могут отпугнуть добросовестных участников.

Протокол Recall использует двухуровневую защиту от подобных атак. Первая линия — токеномика. Она делает создание фальшивых идентичностей экономически бессмысленным, поскольку стоимость получения достаточного количества токенов для атаки может превышать возможную выгоду от манипуляции системой. Вторая — даже если кто-то и сумеет накопить большой стейк, это не даст ему возможности повлиять на объективную часть рейтинга.

Короткие временные выборки и зависимость от рыночного режима могут вводить в заблуждение. В 1990-х исследователи показали, что базы данных паевых инвестиционных фондов, из которых удаляли «мертвые» фонды, создавали иллюзию лучшей средней доходности. Когда эти пропавшие фонды вернули в выборку, многие впечатляющие показатели исчезли. Позднее выяснилось, что успехи, достигнутые в одной рыночной фазе, часто не воспроизводятся при смене условий.

Еженедельные торговые соревнования сталкиваются с той же ловушкой. Короткое окно делает анализ быстрым, но шумным. Длинное окно — стабильным, но медленным. Выбор длины окна, объема отображаемой истории и способа представления неопределённости — это живые вопросы дизайна системы. Баланс тонкий: действуешь слишком быстро — рискуешь получить ложные сигналы; слишком медленно — рискуешь упустить появление новых навыков.

Есть и вполне реальные ограничения — стоимость, задержки и насыщение. С 2010 по 2017 год проходил конкурс ImageNet Large Scale Visual Recognition Challenge: модели должны были классифицировать, локализовать и распознавать объекты в тысяче категорий с использованием миллионов размеченных изображений. В 2012 году нейросеть впервые резко снизила количество ошибок, а к 2015-му лучшие системы превзошли показатели человека по верхним пяти категориям ошибок. В 2017 году организаторы закрыли соревнование.

Тест выполнил свою задачу — дальнейший прогресс сводился к «полировке» бенчмарка. Это и есть насыщение. Для Recall ограничения носят практический характер: живые арены стоят денег и вычислительных ресурсов. Задачи должны оставаться актуальными. Призовые фонды нужно финансировать. Частоту соревнований нужно сбалансировать с глубиной, чтобы результаты вызывали доверие. Это не просто продуктовые решения — это экономические пределы системы.

Координационный слой для агентов

Ни один агент не способен выполнять все задачи. Сложные задачи требуют мультиагентных систем, где разные агенты взаимодействуют и объединяют усилия, чтобы выдать нужный результат.

Почему координация имеет значение
Координация — это самый редкий и ценный ресурс. Мир полон компетентных компонентов, которые не могут найти друг друга, согласовать контракт и обеспечить предсказуемый результат с чёткой ответственностью. Когда координация работает, разрозненные таланты превращаются в надёжную услугу.

В финансах это решено через протокол FIX. FIX (Financial Information eXchange) — это простой текстовый стандарт для передачи данных о заявках, сделках и рыночной информации между участниками торгов. Стандартизация полей позволяет фонду подключаться к нескольким брокерам и площадкам одновременно, не создавая отдельные адаптеры под каждое соединение.

Такие стандарты, как FIX, уменьшают количество двусторонних согласований и переводят координацию в код. Вместо того чтобы тратить ресурсы на организацию взаимодействия, компании могут сосредоточиться на своей основной деятельности.

Экономике агентов нужен эквивалентный механизм. Рабочий слой координации должен отвечать на четыре вопроса:

К какому агенту следует направить запрос?
Что именно этот агент доказал на практике, и где есть проверяемые свидетельства этого?
Когда он доступен и в каком бюджете, чтобы планировщик мог собрать эффективную команду?
Что произойдет в случае сбоя, и как будет организован процесс проверки и устранения проблемы?
Если на все эти вопросы даны правильные ответы, координация начинает происходить по умолчанию.

Я не утверждаю, что Recall уже владеет этим уровнем. Но победит тот слой, который будет нейтрален в вопросе регистрации участников. Все заявления в нем должны быть публично проверяемыми. Он должен быть модульным, чтобы другие фреймворки могли использовать его для маршрутизации, и устойчивым к захвату, потому что сигналы репутации будут формироваться открыто.

Развитие системы можно представить в трёх фазах.
Первая — инфраструктура обнаружения, которая превращает результаты работы в живую, проверяемую ленту данных.
Вторая — слой координации, где планировщики по умолчанию ищут и комбинируют специалистов.
Третья — инфраструктура выравнивания, которая сочетает автоматические проверки, человеческие выборочные ревью и прозрачное андеррайтинг-моделирование, чтобы сеть оставалась честной при масштабировании.

Фаза 1: Инфраструктура обнаружения

Мы переходим от восприятия таблиц лидеров как непреложной истины к пониманию производительности как непрерывного потока данных. Каждое действие агента будет обновлять публичную запись его компетенции.

Ранняя версия платформы Recall вводит арены и циклические испытания, где агенты появляются и выполняют задачи в условиях неопределённости. Эта неопределённость играет важную роль — она создаёт то, что экономисты называют «дорогим сигналом». Когда условия меняются ежедневно, агент не может притворяться. Маршрутизирующий агент действительно должен находить документы, которые меняются каждый день. Маркетмейкер не может прикрываться одной удачной сделкой, если Recall отслеживает его прибыль и убытки еженедельно, включая комиссии и задержки.

Recall записывает каждый результат в реестр, который может проверить любой. История производительности, данные кураторства и даже параметры алгоритмов доступны для просмотра в блокчейне. Это означает, что любой может воспроизвести и проверить измерения. Другие системы смогут работать поверх этой инфраструктуры. Основной акцент делается на происхождении данных и возможности их воспроизведения. Вместо эффектных демонстраций мы будем стремиться к верифицируемым подтверждениям заявленных способностей моделей ИИ.

Recall Rank строится поверх этого потока данных о производительности. Он преобразует поток событий в переносимые репутационные оценки, сохраняя открытый доступ к информации.

Однако обнаружение не ограничивается самими агентами. Нужны и люди, которые понимают, что искать. Здесь вступают в игру кураторы. Они могут стейкать токены в поддержку агентов и результатов, добавляя ценную информацию в протокол. Их сигналы помогают снижать неопределённость в рейтингах, хотя никогда не заменяют реальные показатели. Когда кураторы поддерживают успешных агентов, их влияние растёт. Когда они систематически ошибаются, их вес снижается.

Так достигаются две цели одновременно. Во-первых, внимание и ресурсы направляются к перспективным новичкам, решая проблему «холодного старта». Во-вторых, ложные прогнозы становятся дорогими, потому что неподтверждённые заявления обходятся в реальные деньги.

Хороший пример — проект Numerai. В нём дата-сайентисты каждую неделю подают прогнозы и ставят на них токен NMR. Если их результаты соответствуют или превышают бенчмарк, их стейк приносит доход; если хуже — часть ставки сгорает. Numerai агрегирует лучшие сигналы в единую метамодель и направляет больше капитала туда, где результаты действительно работают.

Накопление данных становится конкурентным рвом. Чем больше событий, тем точнее рейтинги. Чем точнее рейтинги, тем лучше агенты и тем сложнее задачи. Такой подход трудно быстро повторить — код можно скопировать, а историю данных — нет.

Фаза 2: Инфраструктура координации

Сложные задачи в мире ИИ требуют объединения множества навыков. Планирование, декомпозиция, маршрутизация, исполнение, сверка результатов и запись обратно — всё это должно происходить согласованно и без трений. В экосистеме специализированных агентов сам планировщик становится агентом, который обращается к реестру за помощью. И именно в этом реестре Recall играет ключевую роль как координационный слой на ближайшем этапе.

Recall как DNS для ИИ-агентов

Интернет даёт отличную аналогию. Со временем сайты стали сложнее и интерактивнее, но масштабировался интернет не поэтому. Он вырос потому, что мы стандартизировали способы поиска и доверия к сайтам. DNS дал нам человекопонятные имена, сопоставленные с IP-адресами через распределённый кэшируемый каталог. Это отделило идентичность от местоположения: ты вводишь домен — и система находит правильный сервер из любой сети. Recall может стать аналогом DNS для ИИ-агентов, обеспечивая будущее, где сервисы могут перемещаться или масштабироваться, не нарушая связей.

Так как ИИ открывается с множества поверхностей — поисков, чатов, маркетплейсов, API, — реестр должен быть децентрализованным и совместимым с другими системами. Recall Rank интегрируется в эти интерфейсы, возвращая проверяемый индекс возможностей, по которому любой оркестратор может направлять запросы. Когда поиск становится дешёвым и надёжным, композиция агентов становится стандартом по умолчанию.

Многое можно почерпнуть из того, как развивались маршрутизаторы в финансовой сфере. На Solana агрегатор Jupiter стал отправной точкой для обменов, потому что первым получил пользовательский запрос. Он возвращает котировки в стиле RFQ с разных площадок, позволяя пользователю выбрать маршрут. Этот кросс-индустриальный опыт бесценен при создании устойчивого слоя координации.

Ключевое наблюдение из этого успеха — реестр, однажды получив первый запрос, видит, что сработало, а что нет. Он использует эти данные, чтобы следующая задача направлялась лучшему агенту. Это возможно только тогда, когда результаты фиксируются и сопоставляются.

Фаза 3: Инфраструктура выравнивания (alignment)

Когда масштабируется координация, растёт и цена ошибок. Они вызывают цепные реакции во всех зависимых моделях или агентах, и сбой одного звена передаётся дальше по всей системе.

Экономическая структура Recall создаёт баланс между стимулами и контролем. Владельцы токенов могут предлагать новые соревнования, задавать критерии оценки и направлять вознаграждения на развитие наиболее значимых навыков. Агентам с высокими рейтингами и точным кураторам начисляется пропорционально больший доход, потому что вознаграждения напрямую связаны с Recall Rank. Производительность определяет выплату.

Для критически важных задач команда уже исследует возможность внедрения страховой защиты — через небольшие сборы, покрывающие чётко определённые типы сбоев. Рассмотрение претензий будет проходить на основе публичных логов с участием агентов-судей, а при необходимости — малых человеческих жюри.

Это придаёт системе экономическую логику. Пулы навыков и спонсорские программы направляют ресурсы туда, где есть реальный спрос. Методы ранжирования остаются честными, потому что участники системы сами имеют долю в её успехе.

Конкуренция

Сегодня три разные группы формируют то, как люди находят и оценивают ИИ.
- Первая — крупные ИИ-компании, где механизмы поиска и отбора скрыты внутри закрытых экосистем.
- Вторая — централизованные платформы и таблицы лидеров, оценивающие модели вне блокчейна.
- Третья — нативные Web3-сети и маркетплейсы, которые пытаются зафиксировать репутацию на блокчейне.

Каждая из них оптимизирует под свою цель: первые — под масштаб распространения и сетевые сигналы, вторые — под воспроизводимость результатов, третьи — под управляемость продукта. Recall выступает нейтральным слоем, который превращает живые, проверяемые результаты в переносимую репутацию через систему Recall Rank.

1) Крупные ИИ-компании

Крупные компании добились совершенства в создании мощных моделей и их тестировании внутри собственных систем. OpenAI, Anthropic, Google DeepMind, xAI и Meta проводят внутренние бенчмарки, проверки выравнивания (alignment) и A/B-тесты продуктов. Если они запустят магазины агентов, их механика, скорее всего, будет напоминать магазин приложений: курированные полки, категории, определяемые политиками, и непрозрачное ранжирование. Их основное преимущество — дистрибуция; нейтральности здесь нет.

Такой подход действительно дает разработчикам доступ к широкой аудитории, но цена за это высока. Вся власть над тем, какие агенты видны пользователям и как они оцениваются, будет сосредоточена в одних руках. Разработчики вынуждены мириться с замкнутыми системами, произвольно меняющимися правилами и ограниченным доступом к «сырым» логам. Пользователи же должны верить заявлениям компаний на слово, не имея возможности проверить доказательства.

Recall идет по другому пути. Это нейтральный протокол с открытыми правилами.

Рассмотрим пример торговли с участием двух агентов.
- Один агент имеет пять звезд в отзывах, но почти не раскрывает, как именно он добился своих результатов.
- Другой предоставляет четкую ежемесячную статистику: 62 победы из 100 живых раундов «лицом к лицу».

Каждый раунд проходил с лимитом риска в 25 000 долларов. Наихудшая просадка — 5%. Средняя сквозная задержка — 240 миллисекунд. Также указано, где исполнялись ордера: 35% на централизованных биржах (CEX) и 65% на децентрализованных (DEX). В рабочем журнале отмечены повторы, потраченный газ и моменты, когда срабатывали защитные механизмы. Очевидно, что агент с таким уровнем прозрачности проще поддаётся оценке и страхованию рисков, ведь его издержки и поведение подробно зафиксированы.

2) Централизованные платформы оценки и таблицы лидеров

Централизованные инструменты оценки сыграли важную роль в формировании отправной точки. LMArena началась как академический проект под названием Chatbot Arena, но со временем стала компанией, которая позволяет людям тестировать модели ИИ в прямом сравнении и голосовать за ту, что им понравилась больше. Эти голоса формируют таблицу лидеров по разным направлениям. На сегодняшний день платформа собрала миллионы голосов и более 300 моделей в таких областях, как текст, веб-разработка, компьютерное зрение, генерация изображений по тексту и других. Но, несмотря на масштаб, система остаётся субъективной и вне блокчейна. Здесь нет ставок за точность и нет стимулов для разработчиков, кроме репутационных очков.

Kaggle уже более десяти лет двигает машинное обучение вперед. Скрытые тестовые наборы и четкие метрики обеспечивают честность соревнований. Но как только конкурс завершается, страница замирает, а участники уходят дальше. Репутация остаётся привязанной к отдельным задачам и не переносится между конкурсами или со временем.

Recall сохраняет сильные стороны существующих подходов, одновременно решая их ограничения. Система использует преимущества прямых сравнений и усиливает их с помощью блокчейн-верификации и реальных стимулов. Она поддерживает переносимую репутацию, которая сохраняет ценность и за пределами самой платформы Recall.

3) Web3-нативные решения: ончейн-сети и маркетплейсы ИИ

Если взглянуть на существующие ончейн-инициативы, направленные на организацию рынка ИИ, становится ясно: они похожи по структуре, но измеряют совершенно разные вещи.

Например, SingularityNET превратила идею магазина приложений ИИ в протокол. Провайдеры размещают свои модели и API, пользователи платят за вызовы, а репутация накапливается через использование, рейтинги и стейкинг в управлении. Это облегчает дистрибуцию и упрощает поиск нужных сервисов. Но при этом система не подвергает эти сервисы реальной проверке под нагрузкой. Здесь почти нет телеметрии на уровне задач, нет сравнений «лицом к лицу» по единым правилам.

Fetch.ai со своей средой AgentVerse делает шаг вперёд в области обнаружения агентов, анализируя саму сеть. Агенты, с которыми часто взаимодействуют другие сильные агенты, получают более высокий рейтинг в стиле «центральности». Это полезно для маршрутизации внутри графа. Однако есть и обратная сторона: популярность может быть ошибочно принята за качество. Новый агент с реальными навыками, но малым количеством связей может оказаться недооценённым, пока сеть не успеет его «заметить».

Bittensor строит рынок полезности моделей на уровне протокола. Майнеры запускают модели, валидаторы оценивают их выходы, а сеть выплачивает вознаграждение за полезную работу. Это мощная система стимулов, поддерживающая обучение моделей. Однако получаемый сигнал менее прозрачен для конечного пользователя, которому нужно понять, кто сегодня лучший в конкретном навыке. Она оптимизирует коллективную полезность, а не даёт интерпретируемый рейтинг по отдельным компетенциям.

Oraichain и подобные ей сети работают по принципу оракулов: используют стейкинг и штрафы (slashing), чтобы обеспечить корректность ответов ИИ, взаимодействующих со смарт-контрактами. Механика стимулов здесь прозрачна, но сфера применения намеренно ограничена. Они решают задачу надёжности в узких сценариях, а не создают открытую конкурентную среду по множеству навыков.

Recall же измеряет более сложные способности в публичной среде. Соревнования заранее определяют задачу и правила. Агенты работают с живыми данными. Результаты записываются в блокчейн в виде событийных логов.

Маркетплейс с таблицу лидеров

Интернету когда-то нужен был Google, чтобы навести порядок в хаосе. Агентам нужно нечто подобное. Однако одного ранжирования недостаточно. Google появился потому, что уже были сайты. Таблица лидеров не существует без работы, которая создаёт сигнал.

Именно поэтому Recall сначала строит рынок навыков.
Рынок навыков — это место, где участники могут покупать и продавать потенциал конкретного умения. Пользователи могут запросить появление нового навыка, указав, что они готовы стать его потенциальными покупателями, если такой навык будет разработан. Это пространство, где агенты выполняют задачи, оценщики проверяют результаты, а кураторы делают ставки на то, что действительно работает. Платежи проходят внутри системы. Результаты записываются. А слой рейтингов располагается поверх этой активности, а не сбоку от неё.

Это меняет сам подход к тому, как выявляются способности. Начни с рынков — и кураторство естественным образом вырастет из них.

Что могут дать рынки навыков

Рынки навыков способны оказать огромное влияние сразу в двух направлениях:
— финансирование небольших команд;
— финансовая монетизация репутации.

Малые команды почти не имеют шансов в нынешней структуре рынка. Все пространство ИИ сегодня построено вокруг тех, кто может позволить себе огромные вычислительные мощности: больше капитала — больше ресурсов — лучше модели. Неудивительно, что в нем доминируют крупные, хорошо финансируемые компании. А где место маленьким командам? Возможности для них создать собственную нишу практически нет.

Первая важная функция рынков навыков — изменение рыночной динамики в пользу небольших команд. Они позволяют определить, какие навыки востребованы, и направить ограниченные ресурсы туда, где вероятность найти product-market fit выше. Такие команды могут соревноваться, когда кто-то объявляет спрос на новые умения, — а значит, могут конкурировать на равных условиях.

Второе ключевое изменение — финансизация репутации.
Много говорилось о том, как репутацию можно превратить в финансовый актив с помощью токенизации. Однако до сих пор не появилось ни одной устойчивой живой реализации токенизированной системы репутации.

Попытки вроде Bitclout и FriendTech, где инфлюенсеры могли выпускать токены, привязанные к их репутации в социальных графах, например на Twitter, некоторое время были в тренде. Но они не нашли устойчивого PMF — продукт-маркет-фита. Причина, на мой взгляд, в том, что эти проекты создавали обобщенную репутацию, не привязанную к конкретным действиям. Большинство сообществ там оставались пассивными, и пользователи постепенно потеряли интерес.

В случае с Recall всё иначе. Здесь модели и агенты получают репутацию за конкретные, измеримые вещи. Торговая репутация агента строится на основе проверяемых показателей прибыли и убытков в живых соревнованиях. Репутация в области написания текстов — на сравнительных оценках, выставленных автоматическими и человеческими судьями. Поскольку показатели узкие, измеряемые и записываются публично, репутационный сигнал становится достаточно точным, чтобы оценивать результаты и риски.

Это открывает путь к новым финансовым инструментам. Теперь можно оценивать риск того, что агент «галлюцинирует» в ходе диалога с клиентом, исходя из его исторического уровня точности в этой конкретной задаче. Можно страховать надежность агента, анализируя его стабильность в скользящих временных окнах. Можно даже создавать деривативные инструменты, выплаты по которым зависят от того, удерживает ли агент свой Recall Rank выше определённого порога.

Переход от общей репутации к предметной делает ее финансово жизнеспособной. Размытый «уровень доверия» невозможно застраховать, потому что не определены возможные сценарии сбоя. Но утверждение вроде «этот агент обеспечивает 98% точности при извлечении данных из контрактов со средней задержкой 150 мс» можно оценить, застраховать и торговать. Такая точность превращает репутацию из социального сигнала в финансовый актив.

Что может пойти не так

Искусственный общий интеллект может обесценить всю концепцию
Recall делает ставку на то, что будущее за моделями, специализирующимися на конкретных задачах. Большинство реальных задач сложны и требуют сочетания разных навыков. Кто-то должен будет определять, какие модели способны работать вместе, и координировать их взаимодействие. Но что, если появится одна модель, которая сможет делать всё сама?

Пока нет никаких свидетельств того, что AGI — искусственный общий интеллект — появится в обозримом будущем. Если же это все-таки случится, сам мир изменится настолько, что все нынешние рассуждения утратят смысл.

Инерция платформ
Крупные платформы агентов контролируют воронку пользователей — и хотят сохранить этот контроль. Нейтральная межплатформенная система ранжирования угрожает их бизнес-модели. Однако Recall делится ценностью с интеграторами: все участники — разработчики заданий, оценщики, создатели агентов, платформенные команды — получают вознаграждение за вклад. Это помогает встроить слой рейтинга без политического сопротивления.

Сбой маховика
Если вызовы прекратятся, сигнал утратит актуальность. Не будет новых агентов, не появится нового спроса. Recall должна поддерживать постоянный поток задач, чтобы рейтинги оставались живыми. Это похоже на проблему ликвидности в криптоэкономике: чтобы децентрализованные биржи (DEX) для торговли фьючерсами работали, нужно стимулировать участников ликвидностью. Обычно это делается двумя способами — субсидированием комиссий и распределением токенов за действия, которые помогают площадке расти. Recall может применять аналогичные меры, чтобы избежать застойного цикла.

Может ли это сработать? Да, но не везде и не сразу. Модель Recall лучше всего работает в областях, где задачи повторяются часто, а результаты легко измеримы. Эти ограничения могут показаться узкими — пока не осознаешь, как много агентной экономики уже укладывается в эти рамки. Торговля, написание текстов, программирование, извлечение данных, клиентская поддержка — всё это примеры направлений, где объёмы задач огромны и успех измерим.

Инфраструктура уже готова. Вопрос только в том, сможет ли она масштабироваться за счет реального использования.

Большинство пользователей, как обычно, выберет удобство вместо проверяемости. Закрытые платформы дают более гладкий онбординг, привычный интерфейс и мгновенный масштаб. Команды оптимизируют под дистрибуцию, потому что именно она привлекает финансирование.

Recall не пытается устранить эти проблемы магией. Она делает альтернативу — построение репутации через проверяемую работу — постепенно более дешёвой и более ценной. Ставка состоит в том, что со временем всё больше участников сочтут выгоднее доказывать результаты публично, чем заново завоёвывать доверие в частных замкнутых системах.

Конечно, все это не гарантировано. Агенты должны появляться и участвовать. Кураторы — должны оставаться честными. Объем задач — должен быть достаточным, чтобы данные имели смысл. Если эти условия выполняются, результатом станет слой доверия, который масштабируется без централизации, вознаграждает способности без цензуры и делает репутацию переносимой между платформами.

Если Recall сумеет поддерживать этот цикл, она станет системой, через которую навыки создаются, обнаруживаются и покупаются. Хотя, возможно, пройдет еще несколько лет, прежде чем мы увидим ее в окончательной форме.

С наилучшими пожеланиями
Саурабх Дешпанде

✍️ Перевод: https://www.decentralised.co/p/too-many-ais-too-little-trust
🦧 Подпишись на канал: https://t.me/cryptomokakke
📚 Больше статей: https://t.me/smart_sorting