Проект OpenLedger

В настоящий момент область искусственного интеллекта (AI) является самой обсуждаемый и востребованной категорией рынка как с инвестиционной точки зрения, так и в части ожиданий В2В и В2С клиентских сегментов.

Все больше действующих компаний и проектов внедряют в свою работу инструменты AI. Со стратегической точки зрения это говорит об огромном потенциале AI-сегмента, потому что в глобальном смысле слова потребителями AI-услуг станут все компании, находящиеся на рынке - это вопрос времени.

Данный тезис подтверждается статистикой, представленной акселератором Y Combinator.

Так, по данным YC доля AI-стартапов в общем объеме проектов, проходящих акселерацию составляет 72%

1. Фундаментальные основы

Под капотом любого продуктового или сервисного решения, созданного на основе или с применением AI, находятся три больших сегмента:

- предоставление вычислительных мощностей (Computing Power). Наиболее яркими представителями данного направления в web2 секторе является компания NVIDIA, в web3 - Aethir (проект в который GTS Ventures инвестировал на ранней стадии) и Gensyn;

- разработка алгоритмов - это то, чем занимаются такие крупные мировые компании как Open AI, Antropic и прочие. В web3 секторе крупнейшими игроками являются такие проекты как Ritual (проект в который GTS Ventures инвестировал на ранней стадии) и Sentient;

- обработка данных - это сегмент рынка, в котором работает OpenLedger. Суть данного направления заключается том, что сегодня в мире производятся огромные объемы данных. Эти данные могут быть структурируемыми и не структурируемыми, по-разному храниться, иметь разные форматы, варианты доступа (открытый, условно открытый, ограниченный) и прочее. Иными словами, на текущий момент, ситуация с данными находится в крайне хаотичном состоянии и отчасти напоминает гору мусора. Активными участниками рынка обработки данных являются такие крупные компании как Scale AI (именно у этой компании закупают услуги Open AI и Antropic), Labelbox, Amazon Web Services и так далее.

Если посмотреть на прогнозы по размеру рынка AI до 2030 года, то к этому периоду он может составить $15,7 трлн. при ежегодном CAGR в 28,5%.

Это крайне важный момент - потенциальный рост отрасли просто огромен.

Прежде чем закончить фундаментальную часть аналитики хочу обратить внимание на 2 события которые привлекли внимание всего рынка:

1. В июле 2024г. компания OpenAI представила концепцию по которой будет отслеживать прогресс своего развития. Данный прогресс представлен 5 уровнями

По мнению Open AI они сейчас находятся на стадии перехода от Level 1 (чат-боты) к Level 2 (системы, которые могут решать проблемы). Более подробно про стадии можно почитать ТУТ

В итоге получается, что компания Open AI, которая по-праву считается лидером AI отрасли аргументировано полагает, что она, а если прямо говорить - вся отрасль, находятся в самом начале эволюционного пути.

Из данного поинта вполне логично вытекает следующее событие.

2. Закрытие очередного раунда инвестиций компанией OpenAI в начале октября 2024г. в размере $6,6 млрд. по оценке $157 млрд.

Помимо того, что данная компания является флагманом отрасли, который тащит за собой инновации, они также задают новые ценовые диапазоны для всего сектора.

Инвесторы из крупнейших инвестиционных и технологических компаний в лице Thrive Capital Management (AUM $14,4 трлн.), Fidelity management & research (AUM $3,1 трлн.), Microsoft и NVIDIA прекрасно понимают прогнозы по объемам рынка, видят прогресс развития AI, а также его текущий Level.

Поэтому покупка данного актива по феноменально высокой, по нынешним меркам, цене является, по их мнению, вполне оправданной.

Объем рынка и уровни развития AI еще далеки от своего экватора.

Если посмотреть на представленную информацию фундаментально, то помимо потенциального объема рынка в миллиардах долларов к 2030 году, отметим:

- высокую динамику рынка - потенциал роста более чем в 6 раз с текущих значений;

- по сути начальную стадию развития AI сектора (Level 1 по мнению Open AI).

Суть конкретно нашего интереса заключается в том, что все указанные показатели, в конечном счете, являются производной величиной от качества обработанных данных. Иными словами, данные - это новая нефть и твой продукт будет хорош настолько, насколько правильными являются данные на которых он построен.

Или если идти от обратного, то можно сказать так: «garbage in, garbage out».

2. О продукте

Для простоты восприятия информации разделим данный пункт на 3 подпункт.

2.1. О рынке данных

Рынок данных, как сегмент, сегодня достаточно востребован и очень бурно развивается.

Ведущие игроки данного рынка (Scale AI, Labelbox, AWS и иные) являются централизованными компаниям, которым присуще: цензурирование, ограничения и контроль доступа, помноженные на проприетарность (владение авторскими правами), разрозненность данных, невозможность проверок и так далее.

Тем не менее - это текущие реалии и сегодня все работают в этих условиях. Однако все чаще эксперты в области AI сходятся на мысли о том, что сегодня ни у кого нет сомнений о грядущем и более глубоком проникновении AI как в повседневную жизнь, так и на уровне работы предприятий и сервисов. И самое страшное, что может произойти со сферой AI - это его монополизация, начиная с сегмента работы с данными и заканчивая алгоритмами и инфраструктурой.

Именно поэтому проект OpenLedger сделал заход в категорию работы с данными и начал работать именно «от боли участников рынка».

Забегая немного вперед отметим, что команда OpenLedger далеко не новички на рынке и в частности в сфере AI. До момента запуска проекта они уже делали решения в области AI/ML для таких известных компаний как Sony, Wallmart. Таким образом, команда прекрасно знает и понимает всю ситуацию и проблематику изнутри.

Кроме того, если смотреть на заявления публичных участников рынка, то тот же Vitalik Buterin в своих подкастах говорил о том, что новый виток развитию AI может дать именно перенос централизованных баз данных в ончейн. И тут речь не идет о «разделении миров» на web2 и web3, как это часто бывает, а в целом о развитии AI как рыночного направления.

В свою очередь Sreeram Kannan (Founder и CEO Eigenlayer) говорит о том, что проверяемые наборы данных были бы первой категорией, которую он хотел бы видеть в EigenLayer. По его мнению, эта технология привлечет новых разработчиков и даст новые возможности всему AI сектору. В результате, Sreeram Kannan стал одним из первых инвесторов, и адвайзером проекта, а сотрудничество OpenLedger с Eigenlayer перешло в формат стратегического.

2.2. Продукт OpenLedger

В итоге проект OpenLedger представляет из себя блокчейн суверенных данных, который впитал в себя все прелести децентрализации и закрывает потребности участников рынка в проверяемых, открытых, неизменных, доступных наборах данных, работающих «без разрешения» и какой-либо цензуры.

Это позволит разработчикам создавать более умные и высокопроизводительные модели с проверяемыми данными, используя при этом знакомый им язык запросов (SQL).

Консенсус и согласованность транзакций в сети OpenLedger обеспечивается EigenLayer. То есть каждая точка данных в каждой сгенерированной базе данных проходит проверку, подкрепленную консенсусом, что дает сети безопасность уровня блокчейна Ethereum.В дополнение к этому, работа в сети имеет более низкие затраты и бОльшую скорость с выходом на KPI в 100000 TPS (транзакций в секунду).

Вся данная технология упакована в платформу, которая создает инфраструктуру для обеспечения полного жизненного цикла данных.

Проще говоря, работа с данными на платформе OpenLedgerпредоставляет разработчику обрабатывать и моделировать данные для дальнейшего построения любых продуктов с использованием AI. К примеру, на платформе есть возможность для сбора и предварительной обработки данных, построения и проверки моделей, обучения, тонкой настройки, оценки, анализа, а также последующего развертывания полученных моделей.

2.3. Типы данных

Отдельно хочется выделить такую возможность как SyntheticDataGeneration (создание синтетических данных), предоставляемую OpenLedger.

Данная технология активно обсуждается в экспертной среде. По оценкам Gartner к 2030 году синтетические данные полностью заменят реальные данные в моделях искусственного интеллекта.

Также в данной концепции озвучены аргументы о том, что реальные данные крайне дороги, несбалансированы, к ним отсутствует хороший доступ или он отсутствует полностью из-за их конфиденциальности.

Синтетические данные не лучше реальных данных, но по своей сути они являются эффективным дополнением, а иногда и альтернативой реальным данным. Они гораздо дешевле и лучше подходят для теста гипотез и локальных задач.

По мнению Gartner построение моделей по эффективному использованию синтетических данных может стать важным ускорителем для всего AI сектора.

В данной части хочется сделать акцент на том, что на платформе OpenLedger возможно использование и обработка любых типов данных - и реальных, и синтетических.

На основании всех указанных выше возможностей платформы, проектом составлен портрет их потенциального клиента.

Из интересных фишек платформы можно отметить следующие:

- выбор бенчмарка. К примеру, пользователь может заказать маркировку данных у ряда сторонних компаний, а затем с помощью инструментов OpenLedger сравнить и ранжировать этих поставщиков по эффективности и точности предоставленной услуги;

- также отдельно стоит выделить RLHF-функцию (Reinforcement Learning from Human Feedback). Это дает встроенную в платформу возможность получения обратной связи (маркировки данных) от человека. Важность данного алгоритма сложно переоценить, ведь при его помощи создавался такой продукт как Chat GPT. В этой части неизменяемое хранилище OpenLedger обеспечивает постоянную и проверяемую запись обратной связи, получаемую от человека, способствуя при этом прозрачности, надежности и устраняя предвзятость на всех участках передачи этих ценных даных. RLHF подключается по желанию конкретного разработчика, который пользуется платформой OpenLedger, и используется им для собственных целей. В целом это достаточно крутая возможность для разработчика, чтобы посмотреть на свою модель с различных точек зрения.

3. Конкурентная среда

Вопрос о рассмотрении конкурентов стоит разделить на 2 части:

1. Сегодня на рынке данных работают игроки, которые являются централизованными компаниями.

Тем не менее, мы бы не ставили централизованных игроков в список прямых конкурентов проекта. Суть в том, что на этапе своего становления и взросления у OpenLedger и у этих компаний будут совершенно разные клиенты, потому что они работают в различных сегментах рынка (web2 и web3).

Однако, заглядывая на среднесрочную перспективу мы понимаем, что платформа, предлагаемая OpenLedger, может встроить в себя данных игроков и дать им возможность стать более качественными поставщиками данных из-за огромного функционала, который кроме как через блокчейн получить невозможно (проверяемость, неизменность, открытость, безопасность и прочее).

Речь идет о том, что платформа может быть засунута под капот таких компаний как Scale, Labelbox, AWS, Google Cloud - и это одна из возможных вех развития OpenLedger.

2. В сегменте web3 нет проектов из данной категории, которые вышли и торгуются на рынке.

Тем не менее, в поле нашего зрения находится несколько команд, которые пытаются работать в сегменте обработки данных.

По понятным причинам мы не можем предоставить данные о таких проектах, потому что они все еще райзят. Однако если говорить коротко, то под капотом их решений на 100% сидит RLHF-алгоритм.

Кто-то даже этого не скрывает и напрямую говорит об обработке данных через комьюнити, которое будет вознаграждаться токеном проекта.

Проекты ссылаются на известные рынку факты работы Open AI когда стали известны данные о:

- найме Кенийских работников для разметки текста - подробнее ТУТ

- найме разработчиков, которые искали баги и поясняли работу кода «человеческим языком» - подробнее ТУТ

- разметке диалогов людьми в целях поиска ошибок и оценки работы ассистента.

Конкретно мы ничего не имеем против RLHF-алгоритма и возможно в случае с Open AI это было оправданным.

Кроме того, если смотреть на RLHF как на дополняющий инструмент, то его ценность крайне высока. Однако по нашему твердому убеждению, положив данный механизм в основу работы платформы, невозможно создать крупный проект, которым сможет пользоваться весь рынок. И это не говоря про бизнес-модель и жизнеспособность токена проекта, спросу на который просто неоткуда взяться кроме маркетинга и работы маркетмейкера.

Поэтому из представленного набора опций конкурентов в web3 у проекта OpenLedger просто нет.