Мои данные — не мои: появление дата-лееров
Данные — это цифровое золото в эпоху, когда внимание сосредоточено в интернете. В 2024 году среднее время экранного взаимодействия по всему миру составляет 6 часов 40 минут в день, что является ростом по сравнению с предыдущими годами. В США этот показатель даже выше — 7 часов 3 минуты ежедневно.
При таком уровне вовлеченности объем создаваемых данных ошеломляет: 328,77 миллиона терабайт генерируется каждый день в 2024 году. Если учесть весь вновь созданный, захваченный, скопированный или потребленный объем, это примерно 0,4 зеттабайта (ZB) в сутки.
Тем не менее, несмотря на гигантские объемы данных, которые мы ежедневно производим и используем, пользователи владеют лишь ничтожной их частью:
- Социальные сети: Данные в таких платформах, как Twitter, Instagram и других, принадлежат компаниям, даже если они создаются пользователями.
- Интернет вещей (IoT): Информация с умных устройств чаще всего принадлежит производителям устройств или сервисным провайдерам, если только в соглашении не указано иное.
- Медицинские данные: Хотя у пользователей есть права на свои медицинские записи, большая часть информации, собираемой фитнес-трекерами и приложениями для здоровья, остается в собственности компаний, предоставляющих эти сервисы.
Крипто и социальные данные
В криптоиндустрии мы наблюдаем рост таких проектов, как @_kaitoai, который индексирует социальные данные из Twitter и превращает их в полезную аналитику для проектов, KOL (ключевых лидеров мнений) и инфлюенсеров. Именно команда Kaito популяризировала термины "yap" и "mindshare" благодаря своему мастерству в growth hacking (вирусном продвижении), успешным дашбордам Mindshare & Yapper и способности привлекать органический интерес на Crypto Twitter.
Проект "Yap" направлен на мотивацию пользователей создавать качественный контент в Twitter, но пока остается ряд нерешенных вопросов:
- Как именно оцениваются yaps?
- Можно ли получить дополнительные yaps за упоминание Kaito?
- Действительно ли Kaito вознаграждает качественный контент, или система поощряет противоречивые и провокационные мнения?
Помимо социальных данных, растут дискуссии о владении данными, приватности и прозрачности. На фоне быстрого прогресса ИИ возникает еще больше вопросов:
- Кто владеет данными, используемыми для обучения AI-моделей?
- Кто извлекает выгоду из AI-генерируемого контента?
Эти вопросы прокладывают путь к новой эре Web3-дата-лееров — переходу к децентрализованным экосистемам, в которых пользователи сами владеют своими данными.
Появление дата-лееров
В Web3 активно формируется новая экосистема дата-лееров, протоколов и инфраструктуры, ориентированная на персональный контроль над данными. Концепция «суверенитета данных» становится все более актуальной — пользователи получают не только контроль, но и возможность монетизировать свою цифровую информацию.
1. Vana
@vana ставит своей ключевой миссией предоставление пользователям контроля над их данными, особенно в сфере ИИ, где данные имеют огромную ценность для обучения моделей.
Vana внедряет концепцию DataDAOs — сообщественно-управляемых организаций, где пользователи объединяют свои данные ради коллективной выгоды. Каждое DataDAO фокусируется на определенном типе данных:
- r/datadao – работает с данными пользователей Reddit, давая им возможность контролировать и монетизировать свои посты и комментарии.
- Volara – агрегирует данные из Twitter, позволяя пользователям извлекать выгоду из своей активности в соцсети.
- DNA DAO – ориентирован на управление генетическими данными, обеспечивая конфиденциальность и владение.
Vana токенизирует данные, превращая их в торгуемый актив под названием DLP. Каждый DLP агрегирует данные определенной категории, а пользователи могут стейкать токены в эти пулы и получать вознаграждения. Топ-пулы вознаграждаются в зависимости от уровня поддержки сообщества и качества данных.
Что делает Vana уникальным?
Процесс предоставления данных максимально упрощен. Пользователи могут:
- Выбрать DataDAO
- Подключить данные через API-интеграцию или загрузить вручную
- Получать вознаграждения в виде токенов DataDAO и $VANA
2. Ocean Protocol
@oceanprotocol — децентрализованный маркетплейс данных, который позволяет поставщикам данных делиться, продавать или лицензировать их, а потребителям — получать доступ к этим данным для ИИ и научных исследований.
Ocean Protocol использует "datatokens" (ERC-20 токены), которые представляют собой права доступа к определенным наборам данных. Это позволяет монетизировать данные, сохраняя контроль над условиями доступа.
Какие данные торгуются на Ocean?
- Публичные данные:
- Открытые наборы данных, такие как погодная информация, демографические данные, исторические рыночные данные
- Ценность для обучения ИИ и аналитических исследований
- Приватные данные:
Ключевая особенность: Compute-to-Data
Compute-to-Data — это механизм, который позволяет запускать вычисления прямо на данных без их передачи, обеспечивая:
✅ Конфиденциальность: Данные остаются у владельца, а потребители получают только результаты вычислений.
✅ Безопасность: Исключает утечки данных при их обработке.
✅ Эффективность: Уменьшает издержки и риски, связанные с передачей больших объемов данных.
Ocean Protocol делает данные ликвидным активом, создавая новый уровень экономики данных, основанный на блокчейне. 🚀
3. Masa
@getmasafi — открытый слой для данных обучения ИИ, обеспечивающий высококачественные, низкозатратные и актуальные данные для ИИ-агентов и разработчиков.
Ключевые технологии Masa
🔹 Два субнета в сети Bittensor:
- Subnet 42 (SN42) — агрегирует и обрабатывает миллионы записей данных ежедневно, создавая основу для разработки ИИ-агентов и приложений.
- Subnet 59 (SN59) – "AI Agent Arena" — среда для соревнований ИИ-агентов, в которой они, используя данные в реальном времени из SN42, соревнуются за $TAO. Оценка ведется по таким метрикам, как mindshare, вовлеченность пользователей и способность к саморазвитию.
Ключевые партнерства
Партнерство с @virtuals_io
Masa разрабатывает новый стандарт данных для ИИ, обеспечивая их доступность, надежность и интеграцию в блокчейн-экосистему. 🔥
4. Open Ledger
@OpenledgerHQ — блокчейн, специально разработанный для обработки данных, особенно в области ИИ и машинного обучения (ML). Open Ledger обеспечивает безопасное, децентрализованное и верифицируемое управление данными.
Ключевые технологии
🔹 Datanets — специализированные сети сбора данных в Open Ledger, которые отбирают, обогащают и верифицируют реальные данные для ИИ-приложений.
🔹 SLMs (Specialized Language Models) — языковые модели, адаптированные под конкретные индустрии или приложения.
- В отличие от универсальных ИИ-моделей, SLMs обеспечивают повышенную точность, соответствие отраслевым стандартам и защиту данных, снижая риски предвзятости.
🔹 Data Verification — механизм верификации данных, гарантирующий их достоверность и пригодность для обучения SLM-моделей.
Open Ledger создает новый стандарт управления данными для ИИ, повышая их прозрачность, надежность и безопасность. 🚀
Растущий спрос на данные для обучения ИИ
Спрос на качественные данные для обучения ИИ и автономных агентов стремительно растет. Помимо начального обучения, ИИ-агенты требуют актуальных данных в реальном времени для постоянного самообучения и адаптации.
Ключевые вызовы и возможности
🔹 Качество важнее количества – ИИ-моделям необходимы разнообразные и релевантные данные, чтобы избежать предвзятости и ухудшения производительности.
🔹 Суверенитет и приватность данных – как показал кейс Vana, тренд на монетизацию данных пользователями может изменить рынок обучения ИИ.
🔹 Синтетические данные – с учетом проблем конфиденциальности, синтетические данные становятся популярным решением для обучения ИИ без этических рисков.
🔹 Формирование рынка данных – развитие централизованных и децентрализованных маркетплейсов превращает данные в торгуемый актив.
🔹 ИИ для управления данными – ИИ теперь используется для очистки, обогащения и оптимизации данных, что улучшает их качество для обучения других моделей.
Рынок данных для Web3-агентов
🔹 @cookiedotfun агрегирует социальные данные ИИ-агентов и информацию о токенах, превращая их в аналитические инсайты для человеческих и ИИ-трейдеров.
🔹 Cookie DataSwarm API предоставляет ИИ-агентам доступ к качественным данным в реальном времени для анализа рынков и торговли — это одна из самых востребованных ниш в криптоиндустрии.
🔹 Cookie насчитывает 200K MAU (активных пользователей в месяц) и 20K DAU (активных пользователей в день), что делает его одним из крупнейших маркетплейсов данных для ИИ-агентов, с $COOKIE в центре экосистемы. 🚀
Другие ключевые игроки
🔹 @GoatIndexAI – аналитика по экосистеме Solana.
🔹 @Decentralisedco – нишевые дашборды данных, включая GitHub-репозитории и проектную аналитику.
Завершение первой части
Это только начало. Во второй части мы подробно разберем:
✅ Новые вызовы и возможности в экономике данных
✅ Роль синтетических данных в обучении ИИ
✅ Как решаются проблемы конфиденциальности данных
✅ Будущее децентрализованного обучения ИИ
Кто контролирует данные, тот формирует будущее.
Проекты, развивающиеся в этой сфере, определят, как данные будут владеться, передаваться и монетизироваться в эпоху ИИ и Web3.
Спрос на качественные данные продолжает расти, и гонка за создание прозрачной, ориентированной на пользователей экономики данных только начинается.
Оставайтесь с нами — скоро выйдет вторая часть!
Ставь Лукаса и Подпишись на канал: https://t.me/cryptomokakke