Мои данные — не мои: появление дата-лееров

Перевод статьи

Данные — это цифровое золото в эпоху, когда внимание сосредоточено в интернете. В 2024 году среднее время экранного взаимодействия по всему миру составляет 6 часов 40 минут в день, что является ростом по сравнению с предыдущими годами. В США этот показатель даже выше — 7 часов 3 минуты ежедневно.

При таком уровне вовлеченности объем создаваемых данных ошеломляет: 328,77 миллиона терабайт генерируется каждый день в 2024 году. Если учесть весь вновь созданный, захваченный, скопированный или потребленный объем, это примерно 0,4 зеттабайта (ZB) в сутки.

Тем не менее, несмотря на гигантские объемы данных, которые мы ежедневно производим и используем, пользователи владеют лишь ничтожной их частью:

Социальные сети: Данные в таких платформах, как Twitter, Instagram и других, принадлежат компаниям, даже если они создаются пользователями.
Интернет вещей (IoT): Информация с умных устройств чаще всего принадлежит производителям устройств или сервисным провайдерам, если только в соглашении не указано иное.
Медицинские данные: Хотя у пользователей есть права на свои медицинские записи, большая часть информации, собираемой фитнес-трекерами и приложениями для здоровья, остается в собственности компаний, предоставляющих эти сервисы.

Крипто и социальные данные

В криптоиндустрии мы наблюдаем рост таких проектов, как @_kaitoai, который индексирует социальные данные из Twitter и превращает их в полезную аналитику для проектов, KOL (ключевых лидеров мнений) и инфлюенсеров. Именно команда Kaito популяризировала термины "yap" и "mindshare" благодаря своему мастерству в growth hacking (вирусном продвижении), успешным дашбордам Mindshare & Yapper и способности привлекать органический интерес на Crypto Twitter.

Проект "Yap" направлен на мотивацию пользователей создавать качественный контент в Twitter, но пока остается ряд нерешенных вопросов:

Как именно оцениваются yaps?
Можно ли получить дополнительные yaps за упоминание Kaito?
Действительно ли Kaito вознаграждает качественный контент, или система поощряет противоречивые и провокационные мнения?

Помимо социальных данных, растут дискуссии о владении данными, приватности и прозрачности. На фоне быстрого прогресса ИИ возникает еще больше вопросов:

Кто владеет данными, используемыми для обучения AI-моделей?
Кто извлекает выгоду из AI-генерируемого контента?

Эти вопросы прокладывают путь к новой эре Web3-дата-лееров — переходу к децентрализованным экосистемам, в которых пользователи сами владеют своими данными.

Появление дата-лееров

В Web3 активно формируется новая экосистема дата-лееров, протоколов и инфраструктуры, ориентированная на персональный контроль над данными. Концепция «суверенитета данных» становится все более актуальной — пользователи получают не только контроль, но и возможность монетизировать свою цифровую информацию.

1. Vana

@vana ставит своей ключевой миссией предоставление пользователям контроля над их данными, особенно в сфере ИИ, где данные имеют огромную ценность для обучения моделей.

Vana внедряет концепцию DataDAOs — сообщественно-управляемых организаций, где пользователи объединяют свои данные ради коллективной выгоды. Каждое DataDAO фокусируется на определенном типе данных:

r/datadao – работает с данными пользователей Reddit, давая им возможность контролировать и монетизировать свои посты и комментарии.
Volara – агрегирует данные из Twitter, позволяя пользователям извлекать выгоду из своей активности в соцсети.
DNA DAO – ориентирован на управление генетическими данными, обеспечивая конфиденциальность и владение.

Vana токенизирует данные, превращая их в торгуемый актив под названием DLP. Каждый DLP агрегирует данные определенной категории, а пользователи могут стейкать токены в эти пулы и получать вознаграждения. Топ-пулы вознаграждаются в зависимости от уровня поддержки сообщества и качества данных.

Что делает Vana уникальным?

Процесс предоставления данных максимально упрощен. Пользователи могут:

Выбрать DataDAO
Подключить данные через API-интеграцию или загрузить вручную
Получать вознаграждения в виде токенов DataDAO и $VANA

https://x.com/vana/status/1872641532962238927

2. Ocean Protocol

@oceanprotocol — децентрализованный маркетплейс данных, который позволяет поставщикам данных делиться, продавать или лицензировать их, а потребителям — получать доступ к этим данным для ИИ и научных исследований.

Ocean Protocol использует "datatokens" (ERC-20 токены), которые представляют собой права доступа к определенным наборам данных. Это позволяет монетизировать данные, сохраняя контроль над условиями доступа.

Какие данные торгуются на Ocean?

Публичные данные:

Открытые наборы данных, такие как погодная информация, демографические данные, исторические рыночные данные
Ценность для обучения ИИ и аналитических исследований

Приватные данные:

Медицинские записи, финансовые транзакции, данные IoT-сенсоров, персонализированные пользовательские данные
Требуют строгих мер безопасности и конфиденциальности

Ключевая особенность: Compute-to-Data

Compute-to-Data — это механизм, который позволяет запускать вычисления прямо на данных без их передачи, обеспечивая:
✅ Конфиденциальность: Данные остаются у владельца, а потребители получают только результаты вычислений.
✅ Безопасность: Исключает утечки данных при их обработке.
✅ Эффективность: Уменьшает издержки и риски, связанные с передачей больших объемов данных.

Ocean Protocol делает данные ликвидным активом, создавая новый уровень экономики данных, основанный на блокчейне. 🚀

https://x.com/oceanprotocol/status/1874129923972997433

3. Masa

@getmasafi — открытый слой для данных обучения ИИ, обеспечивающий высококачественные, низкозатратные и актуальные данные для ИИ-агентов и разработчиков.

Ключевые технологии Masa

🔹 Два субнета в сети Bittensor:

Subnet 42 (SN42) — агрегирует и обрабатывает миллионы записей данных ежедневно, создавая основу для разработки ИИ-агентов и приложений.
Subnet 59 (SN59) – "AI Agent Arena" — среда для соревнований ИИ-агентов, в которой они, используя данные в реальном времени из SN42, соревнуются за $TAO. Оценка ведется по таким метрикам, как mindshare, вовлеченность пользователей и способность к саморазвитию.

Ключевые партнерства

Партнерство с @virtuals_io

Интеграция реального времени данных в агентов Virtuals для их обучения и адаптации.

Запуск $TAOCAT

Демонстрация возможностей Masa (в настоящее время доступен в Binance Alpha).

Masa разрабатывает новый стандарт данных для ИИ, обеспечивая их доступность, надежность и интеграцию в блокчейн-экосистему. 🔥

https://x.com/getmasafi/status/1869743680275308655

4. Open Ledger

@OpenledgerHQ — блокчейн, специально разработанный для обработки данных, особенно в области ИИ и машинного обучения (ML). Open Ledger обеспечивает безопасное, децентрализованное и верифицируемое управление данными.

Ключевые технологии

🔹 Datanets — специализированные сети сбора данных в Open Ledger, которые отбирают, обогащают и верифицируют реальные данные для ИИ-приложений.

🔹 SLMs (Specialized Language Models) — языковые модели, адаптированные под конкретные индустрии или приложения.

В отличие от универсальных ИИ-моделей, SLMs обеспечивают повышенную точность, соответствие отраслевым стандартам и защиту данных, снижая риски предвзятости.

🔹 Data Verification — механизм верификации данных, гарантирующий их достоверность и пригодность для обучения SLM-моделей.

Open Ledger создает новый стандарт управления данными для ИИ, повышая их прозрачность, надежность и безопасность. 🚀

https://x.com/sreeramkannan/status/1882154652508283153

Растущий спрос на данные для обучения ИИ

Спрос на качественные данные для обучения ИИ и автономных агентов стремительно растет. Помимо начального обучения, ИИ-агенты требуют актуальных данных в реальном времени для постоянного самообучения и адаптации.

Ключевые вызовы и возможности

🔹 Качество важнее количества – ИИ-моделям необходимы разнообразные и релевантные данные, чтобы избежать предвзятости и ухудшения производительности.
🔹 Суверенитет и приватность данных – как показал кейс Vana, тренд на монетизацию данных пользователями может изменить рынок обучения ИИ.
🔹 Синтетические данные – с учетом проблем конфиденциальности, синтетические данные становятся популярным решением для обучения ИИ без этических рисков.
🔹 Формирование рынка данных – развитие централизованных и децентрализованных маркетплейсов превращает данные в торгуемый актив.
🔹 ИИ для управления данными – ИИ теперь используется для очистки, обогащения и оптимизации данных, что улучшает их качество для обучения других моделей.

Рынок данных для Web3-агентов

🔹 @cookiedotfun агрегирует социальные данные ИИ-агентов и информацию о токенах, превращая их в аналитические инсайты для человеческих и ИИ-трейдеров.

🔹 Cookie DataSwarm API предоставляет ИИ-агентам доступ к качественным данным в реальном времени для анализа рынков и торговли — это одна из самых востребованных ниш в криптоиндустрии.

🔹 Cookie насчитывает 200K MAU (активных пользователей в месяц) и 20K DAU (активных пользователей в день), что делает его одним из крупнейших маркетплейсов данных для ИИ-агентов, с $COOKIE в центре экосистемы. 🚀

https://x.com/cookiedotfun/status/1883176489388278122

Другие ключевые игроки

🔹 @GoatIndexAI – аналитика по экосистеме Solana.
🔹 @Decentralisedco – нишевые дашборды данных, включая GitHub-репозитории и проектную аналитику.

Завершение первой части

Это только начало. Во второй части мы подробно разберем:

✅ Новые вызовы и возможности в экономике данных
✅ Роль синтетических данных в обучении ИИ
✅ Как решаются проблемы конфиденциальности данных
✅ Будущее децентрализованного обучения ИИ

Кто контролирует данные, тот формирует будущее.
Проекты, развивающиеся в этой сфере, определят, как данные будут владеться, передаваться и монетизироваться в эпоху ИИ и Web3.

Спрос на качественные данные продолжает расти, и гонка за создание прозрачной, ориентированной на пользователей экономики данных только начинается.

Оставайтесь с нами — скоро выйдет вторая часть!

Ставь Лукаса и Подпишись на канал: https://t.me/cryptomokakke