Все о данных
March 12, 2021

Возвращение власти пользователю:четвертая эра интернета

human.ai

Был ли Тим Кук прав, когда писал, что мы-всего лишь продукты Google и Facebook, которые можно продавать кому угодно по их прихоти? Был ли сэр Тим Бернерс-Ли прав, когда бушевал по поводу того, что Марк Цукерберг превратил интернет в закрытый инструмент капитализма слежки и манипулирования выборами? Если они были правы, то что же ждет нас в будущем в интернете?

Ниже мы попытаемся ответить на эти вопросы. Мы делаем это, описывая все еще раннюю эволюцию интернета. В частности, мы делаем это, опираясь на размышления Криса Диксона и Андрея Карпати. Мы описываем эволюцию в сторону корпоративного контроля, особенно в эпоху искусственного интеллекта. Хотя большая часть этой эволюции действительно мрачна, мы утверждаем, что происходит фундаментальное изменение. В настоящее время существуют строительные блоки для возвращения интернета людям. Завтра выглядит намного ярче, чем сегодня.

Код и власть для народа

Первая эра интернета была основана на открытых протоколах, контролируемых интернет - сообществом. Эти протоколы простирались от TCP/IP до полного набора интернет-протоколов, до HTTP для интернета, до XMPP и VOIP для чата и передачи голоса и многого другого. Эта первая эпоха длилась с 1980-х до начала 2000-х.

Код и власть для корпораций

Вторая эра, пересекающаяся с первой, началась в середине 1990-х. Для нее были характерны продукты и услуги с закрытым исходным кодом, контролируемые централизованными корпоративными гигантами, такими как Apple, Amazon, Google и Facebook.

Переход от первой эры ко второй был результатом стимулов. В то время открытые протоколы не имели масштабируемой бизнес-модели. Это делало все более легким привлечение наиболее ярких умов для построения централизованных монополий.

Код для народа. Власть для корпораций

Третья эра началась в 2006 году, начиная с запуска Hadoop. В эту третью эпоху корпоративные гиганты все чаще используют открытый код. Вместо того чтобы рассматривать проприетарный код как основной дифференциатор, они теперь стремились к монопольному контролю с помощью сетевых эффектов.

Android от Google представляет собой наглядный пример. Компания Google смогла использовать кодовую базу с открытым исходным кодом для снижения затрат на разработку за счет совместной работы, улучшения системы найма персонала, улучшения привлечения клиентов и партнеров, а также для установления и контроля отраслевых стандартов. Google также смогла закрепить монопольный контроль с помощью нескольких сетевых эффектов — основанных на платформе, личной полезности, рынке, рыночной сети и данных.

В эпоху искусственного интеллекта. Данные + талант = сила

2016 год ознаменовался значительными переменами в этой эпохе. Это было тогда, когда ИИ начал использовать программное обеспечение, которое пожирало наш мир. Как и прежде, корпоративные гиганты продолжали работать с открытым исходным кодом, все еще стремясь к монопольному контролю. Однако их путь к контролю был сосредоточен именно на поедании талантов и поедании данных, которые питают ИИ.

Этот фокус на талантах и данных вытекал из принципиально иного способа написания программного обеспечения ИИ. Программное обеспечение ИИ не пишется людьми. На самом деле, он часто даже не читается человеком. Вместо этого это результат процесса поиска, проводимого машинами, с людьми-экспертами, направляющими, обрамляющими и управляющими процессом. Специалисты-люди предоставляют своим компьютерам подходящую цель (например, “удовлетворить набор данных пар вход-выход”). Люди - эксперты также предоставляют границы программного пространства, которое компьютеры должны искать (например, с помощью некоторой архитектуры нейронных сетей). Люди - эксперты затем тщательно управляют поиском. Акцент на таланты в области искусственного интеллекта был обусловлен крайней нехваткой экспертов, способных направлять, формировать и управлять разработкой программного обеспечения для искусственного интеллекта. Акцент на расширении, объединении, кураторство, очистке и маркировке наборов данных был обусловлен необходимостью достижения более совершенных и далеко идущих целей.

Google был лидером в этой новой эре искусственного интеллекта. Компания переосмыслила себя как AI-first, где ”AI — это все и везде”, причем всем командам рекомендуется строить поверх единого стека инфраструктуры AI (который Google использует с открытым исходным кодом ). Новый AI-first Google намеревался монополизировать ограниченные таланты в области ИИ в мире, так что академические результаты Google в области ИИ теперь затмевают MIT, Стэнфорд и все остальные университеты. Кроме того, произошло постепенное изменение подхода компании к данным. Компания расширила и объединила свои данные наблюдения, чтобы создать “ суперпрофили” для всех пользователей Google, которые все чаще записывают нашу личную активность на веб-сайтах , отличных от Google, на всех наших устройствахглубоко в наших домах и когда мы выходим на улицу — независимо от того, используем ли мы наши телефоны или нет. Это дошло до того, что старшие руководители почувствовали себя вынужденными уйти. Подразделение компании даже заключило секретные сделки по приобретению наших медицинских данных, и эти усилия были затем объединены в Google.

Возвращение кода и власти людям

Сейчас мы вступаем в четвертую эру интернета. В эту четвертую эпоху код будет все больше склоняться к тому, чтобы быть полностью, а не частично открытым исходным кодом. Люди станут исключительными контролерами своих данных. В частности, они станут исключительными коммерческими контролерами своих данных. Самые яркие умы также получат стимул покинуть свои позолоченные клетки.

Предоставление каждому кошелька данных

Основатель сети, Сэр Тим Бернерс-Ли, еще на шаг приблизил нас к этой четвертой эпохе, запустив проект Solid в 2016 году. Задуманный как способ разрушить обнесенные стеной сады Facebook, проект Solid теперь тестируется NHS как способ позволить пациентам определить, кто может получить доступ к их медицинским данным.

Проект Solid нацелен на то, чтобы предоставить каждому из нас общий, совместимый кошелек данных. Согласно видению сэра Тима, каждый из нас должен иметь возможность поместить все наши данные в наши собственные кошельки данных. Это должно включать наши изображения, наши социальные профили, наши медицинские данные или любые данные, которые мы можем хранить сегодня в DropBox или Google Drive. Эти кошельки должны быть общедоступными, что позволит нам делиться избранной информацией с избранными доверенными сторонами. Эти кошельки также должны быть совместимы, позволяя разработчикам создавать приложения и сервисы поверх всех этих кошельков (например, децентрализованная альтернатива Facebook).

Инсайты Без Данных

Solid Project решает проблему обмена данными и сотрудничества между доверенными лицами. Однако некоторые из наиболее важных достижений, которые мы можем сделать с данными, требуют, чтобы данные были доступны ненадежным сторонам.

Наглядным примером служат точные медицинские данные. Эти данные дают шанс на усиленный восходящий тренд. Если самые блестящие умы получат доступ к нашим коллективным точным медицинским данным, то они смогут существенно продвинуть наше понимание болезни, опыта пациента и реакции на лечение. Тем не менее, точные медицинские данные также дают шанс на усиление обратной стороны. В основе этих данных лежат персональные геномные данные. Эти данные по своей сути являются идентифицирующими.Они определяет вероятность развития способностей, поведения и болезней.

Если мы хотим максимизировать полезность этого типа данных и одновременно минимизировать потенциальный вред, то нам нужно решить две проблемы:

  • Утечка данных: когда ненадежные стороны выполняют вычисления с нашими персональными данными, эти стороны — или любые другие стороны — не должны иметь прямого доступа к нашим необработанным данным.
  • Компрометирующий вывод: ни у кого не должно быть возможности взять результаты каких-либо вычислений и сделать какие-либо личные выводы о нас.

Важно отметить, что мы должны решить эти проблемы, одновременно удовлетворяя оба ограничения. Первое ограничение - это "целостность вычислений". Это не должно быть возможно для любого, чтобы вмешаться в вычисления. Второе ограничение - это "удаленная аттестация". Все стороны должны иметь возможность удаленно подтвердить, что расчеты действительно верны, как и ожидалось.

Никаких компрометирующих выводов

В то время как вторая проблема, компрометирующий вывод, является сложной проблемой, мы можем рассуждать об этом. Были также развернуты реальные решения.

Дифференциальная конфиденциальность это математически доказуемая гарантия того, что вывод невозможен — независимо от того, какие связи записей, дифференцирование или другие атаки используются. Мы говорим, что алгоритм является ε-дифференциально частным, если выходные данные алгоритма по существу одинаковы, независимо от того, включены ли данные какого-либо индивида во входной набор данных или нет. Число, которое мы выбираем для ε, точно ограничивает то, что можно узнать об индивиде в результате включения его частной информации в дифференциально-частный анализ. Если информация человека используется в нескольких анализах, то можно узнать больше. Дифференциальная конфиденциальность также гарантирует, что увеличивающаяся сумма, которую можно узнать, является известной функцией ε и числа выполненных анализов.

Известные решения в реальном мире теперь были развернуты GoogleAppleMicrosoft и Бюро переписи населения США. Хотя эти решения впечатляют, они сложны, когда большое количество анализов выполняется с течением времени. Мы ожидаем, что эти решения будут улучшаться. Это связано, в частности, с тем, что дифференциально-частное машинное обучение предполагает повторные вычисления.  Aircloak’s Diffix это также предполагает, что могут быть и другие способы решения повторяющихся анализов, которые удовлетворяют наши реальные потребности в частной жизни, даже если эти подходы не удовлетворяют строгому определению того, что значит быть дифференциально частным.

Попытка предотвратить утечку данных

Первая проблема - утечка данных во время вычислений оказалась сложной.

Первоначально были предложены криптографические подходы. К ним относятся защищенные многопартийные вычисления, гомоморфное шифрование и системы доказательства нулевых знаний. К сожалению, несмотря на продолжающуюся работу с конца 1970-х годов, эти подходы нашли ограниченное применение на протяжении многих лет. Это происходит потому, что они страдают от значительных накладных расходов на производительность. Они также жестко ограничивают то, как различные стороны должны сотрудничать. Кроме того, взаимодействие между этими решениями и решениями задачи вывода не является однозначным.

С тех пор было предложено два альтернативных подхода. Эти альтернативы более практичны, но они также требуют, чтобы участники доверяли по крайней мере одной другой стороне. Эти два подхода-централизованно координируемые trusted execution environments (TEEs, 2016) and federated learning/federated analytics (2017/2020

TEEs обеспечивают полную изоляцию кода и данных во время их использования. Это управляется с помощью аппаратного обеспечения. TEEs также обеспечивают дистанционную аттестацию, а это означает, что все стороны могут подтвердить, что расчеты завершены. Для чего-либо, кроме проблем с игрушками, необходимо координировать несколько тройников. Централизованная координация оставляет все стороны, нуждающиеся в доверии центральному координатору.

Federated analytics  включает в себя два уровня вычислений: (i) локальные вычисления и (ii) вычисления из разных источников. Во время локальных вычислений запросы передаются каждому независимому держателю данных, а затем вычисления выполняются в локальной среде с использованием локальных данных. Во время межисточниковых вычислений локально вычисленные выходные данные совместно используются и создаются агрегированные выходные данные.

Federated analytics  ограничивает степень, в которой исследователи могут определять корреляции на уровне населения. Это связано с тем, что корреляции могут быть неочевидны во время локального вычисления. Federated analytics  также требует, чтобы исследователи доверяли владельцам данных. Это связано с тем, что Federated analytics  предоставляет запросы владельцам данных. Если знания о запросах являются ценными, или если модели ИИ, обучаемые на данных, являются ценными, то владельцам данных нужно доверять, чтобы они не использовали эти ценные активы. Раскрытие запросов у каждого владельца данных также усиливает риск атаки — за счет увеличения как мотива, так и средств.Например, это увеличивает вероятность того, что человек, работающий на владельца данных, будет иметь проблемы с определенным использованием данных. Этот человек также сможет манипулировать запросами и локальными выходами легче, чем данными.

Сама по себе Federated analytics  также борется, когда данные разрежены у любого из владельцев. В целях предотвращения того, чтобы координатор платформы мог выводить личную информацию, Federated analytics  требует, чтобы результаты каждого локального вычисления были дифференцированно конфиденциальными. Когда данные разрежены у некоторых владельцев данных, это становится трудным. Это происходит потому, что мы добавляем шум для обеспечения дифференциальной конфиденциальности, а вычисления в небольших наборах данных требуют пропорционально большего шума, чтобы предотвратить вывод о каком-либо человеке. Мы можем решить эту трудность путем объединения Federated analytics  с безопасными многопартийными вычислениями. Когда мы делаем это, дифференциальная конфиденциальность может быть применена один раз на этапе вычисления из нескольких источников. Однако, в зависимости от способа добавления безопасного многопартийного вычисления, участники должны либо доверять координатору, либо им нужна доверенная третья сторона. В обоих случаях это оставляет правительствам цель для принуждения.

Решение проблемы утечки данных

Исследователи из Калифорнийского университета в Беркли и Корнелле окончательно решили проблему утечки данных в 2018 году. Они предоставили решение, которое позволяет проводить анализ с сохранением конфиденциальности в личных (разреженных) кошельках данных, таких как кошельки Solid Project. Кроме того, они предоставили решение, которое держит запросы и модели искусственного интеллекта в секрете.

Их решение началось с идеи, что тройники действительно предотвращают утечку данных, когда мы используем один тройник для анализа крошечных наборов данных из нескольких источников. Они нашли способ масштабировать предотвращение утечки данных от анализа с одним TEEs до анализа с несколькими TEEs, не предъявляя никаких требований к доверию ни к одной из сторон. Они достигли этого, используя доказуемую модель безопасности, которая позволяет проводить независимую проверку. Они также достигли этого с незначительными накладными расходами на производительность.

Они достигли этого, используя блокчейны для координации TEEs. Самое главное, что они использовали блокчейны только для координации. Они четко отделили исполнение от консенсуса. Они показали, что все вычисления могут происходить над личными данными вне цепочки в TEEs, которые затем подтверждают их правильное выполнение в цепочке. Это позволило исследователям избежать ограничений производительности, связанных с блокчейнами. Важно отметить, что это было сделано с помощью проверяемой модели, которая не вводит дополнительных уязвимостей безопасности.

Сделать Это Реальным: Дать Людям Контроль

Профессор Dawn Song, возможно, самый цитируемый в мире исследователь безопасности, возглавил разработку этого нового решения. Вскоре после того, как исследование было опубликовано, a16z возглавил инвестиции в размере 45 миллионов долларов в компанию профессора Song, Oasis Labs, чтобы принести это решение в мир. После двух лет разработки, в сентябре 2020 года, было объявлено о первом крупном внедрении этого решения в реальном мире в партнерстве с компанией Nebula Genomics.

Согласование Стимулов

Хотя повышение производительности нового решения невозможно переоценить, это была не единственная причина, по которой a16z и другие компании инвестировали так много. Их инвестиции следовали за экстраординарным выравниванием стимулов. Каждый из нас будет побужден вытащить себя и свои данные из централизованных служб. Самые яркие умы будут поощрены покинуть корпоративные гиганты и построить сервисы с открытым исходным кодом. Далее, с течением времени, эти стимулы будут множиться.

Если проект Solid будет дополнен, чтобы обеспечить анализ наших данных с сохранением конфиденциальности, то это, безусловно, важно. Однако предположим, что нам трудно или дорого собрать некоторые личные данные, которые интересуют аналитиков (например, данные о здоровье. Будет ли мы просто собирать эти данные, зная, что аналитики заинтересованы? Кроме того, если бы мы действительно собирали данные из-за наших собственных потребностей, то обязательно позволили бы другим анализировать эти данные? Одна из вещей, которая делает новое решение захватывающим, заключается в том, что у него есть смарт-контракты, встроенные по необходимости. Это означает, что каждый из нас может быть финансово стимулирован к сбору и раскрытию ценных персональных данных для анализа с сохранением конфиденциальности.

Эти токенизированные смарт-контракты также будут стимулировать разработчиков создавать инструменты и сервисы с открытым исходным кодом поверх и в поддержку нового решения. Эти стимулы принимают две формы: предварительно добытые токены и операционная доля каждой транзакции. Открытый исходный код является определяющей чертой этих токенизированных, децентрализованных сервисов. Потребность в открытом исходном коде усиливается в данном конкретном случае одним из требований нового решения. Он должен быть с открытым исходным кодом, чтобы обеспечить поддающуюся проверке безопасность.

По мере создания новых сопутствующих сервисов они позволят и будут стимулировать дальнейшее создание токенизированных сервисов с открытым исходным кодом — каждый с новыми пользователями и новыми клиентами. Это приводит к ускорению роста экосистемы вокруг анализа наших личных, ценных данных с сохранением конфиденциальности. Традиционные централизованные услуги по своей сути эгоистичны и конкурентоспособны, стремясь владеть как можно большей частью опыта пользователя и опыта клиента. Токенизированные, децентрализованные услуги-это совсем другое. Они по своей сути сотрудничают, стремясь побудить других создавать услуги более высокого уровня, поскольку более высокие услуги приводят к тому, что более высокая ценность захватывается ниже. Это различие было описано как переход от тонких к толстым протоколам.

Где все это начинается: приложение-убийца на территории убийцы

Хотя профессор Song и ее команда базируются в Калифорнии, наиболее насущная потребность в их работе исходит от поставщиков медицинских услуг в Европе. Мы ожидаем, что именно здесь начнется масштабное реальное развертывание.

Это ожидание вытекает из новых нормативных требований. Предлагаемый ЕС закон Об управлении данными обязывает поставщиков услуг общественного здравоохранения в ЕС сделать свои данные общедоступными для стимулирования инноваций в области здравоохранения. Однако история евгеники и тайной слежки означает, что неприкосновенность частной жизни не может быть принесена в жертву. Обмен данными должен осуществляться в строгом соответствии с GDPR. Кроме того, должны быть приняты технические меры для предотвращения доступа властей третьих стран к данным европейских пациентов.

Заключительные Мысли

Крис Диксон написал в типично пророческом посте: “централизованные платформы доминировали так долго, что многие люди забыли, что есть лучший способ создания интернет-сервисов.” Можно быть свободным от данных и алгоритмических искателей ренты. Можно быть свободным от страха, что наши данные будут использованы против нас. Можно сделать сотрудничество, а не конкуренцию нашим коллективным фокусом.

В этом посте мы описали переход от открытого интернета к все более закрытому интернету. В частности, мы описали, как это происходило в эпоху искусственного интеллекта. В 2018 году фундаментальная технологическая инновация дала надежду на светлое будущее, в котором интернет снова станет открытым, а власть перейдет от централизованных монополий к народу. Мы описали это здесь.

Первый реальный пример изменений был замечен в сентябре 2020 года. Это было в США, чего и следовало ожидать, поскольку большая часть технического развития была в США. Однако именно в Европе конфиденциальность имеет наибольшее значение — как для политиков, так и для людей. Мы прогнозируем, что реальное развертывание начнет масштабироваться в Европе. Действительно, учитывая новые правила, мы прогнозируем, что это произойдет в Европе в партнерстве с поставщиками услуг общественного здравоохранения.