Все о данных
July 13, 2021

Унитаризм против индивидуальности и новая цифровая повестка: Сила децентрализованной сети.Часть 2.

Anastassia Lauterbach

#6: Повышение информационной грамотности

Каждый человек имеет основное право на цифровое образование и свободный доступ к цифровым знаниям.

Одержимость данными проникла в каждую часть нашей жизни, от нашей работы до личной жизни и каждого взаимодействия между ними. Политические и экономические усилия в отношении интернет-технологий будут бесполезны, если наши дети ничего не знают о данных и интернет-технологиях.

Поэтому трудно понять, почему наступательные действия немецкой образовательной политики в области цифровых технологий ограничиваются оснащением школ цифровыми терминалами, ноутбуками, планшетами или "смартбордами". Гораздо более срочно нам нужно наступление на потребителя данных для немецких школ, университетов и компаний, то есть обучение базовым знаниям о данных, их значении в нашей жизни и экономике, а также о программных подходах и терминах, таких как пользовательский опыт и проектирование опыта и формулировка проблем. Этот фокус приведет к тому, что дети и молодые люди будут осознавать свои цифровые тени и зеркальные миры в очень раннем возрасте. Знание несет ответственность и является необходимым условием для того, чтобы подрастающие поколения могли активно решать, как может выглядеть будущая цифровая жизнь и работа, насколько свободными могут быть монополии данных и, возможно, даже как небольшие наборы данных - будь то о собственных привычках в еде или пожертвованиях в местную организацию помощи - могут быть использованы для решения проблем.

До сих пор в европейских странах еще не разработан подход к обучению школьников данным и технологиям ИИ. Есть несколько попыток демократизировать знания об ИИ. Например, Финляндия вводит бесплатный онлайн-курс по основам искусственного интеллекта для всех граждан Европейского Союза.Страна надеется, что проект стоимостью почти 2 миллиона долларов, который сделает ее “курс гражданского права в области искусственного интеллекта” доступным на всех официальных языках ЕС, достигнет 1 процента всех граждан союза к концу 2021 года. Страна работает с Университетом Хельсинки и tech consultancy Reactor, чтобы развернуть программу, которая основана на “Element AI” - самом популярном курсе, когда-либо предлагавшемся университетом.

Сегодня Китай явно стремится к более глубоким технологическим знаниям с помощью общенациональных образовательных программ по данным и ИИ. Даже самые маленькие дети в детском саду учатся простому программированию. Alibaba и Baidu организуют каникулярные курсы для обучения студентов подходам глубокого обучения, технологии искусственного интеллекта, которая в настоящее время делает впечатляющие прорывы в области автономного вождения, точной диагностики и интеллектуальных динамиков. Машинное обучение является обязательным предметом с шестого класса и далее. Китайские школы по всему миру лидируют в использовании роботов в обучении и приучении детей к работе с машинами как можно раньше (Lauterbach, 2019).

Дети любят задавать вопросы " почему”. Когда взрослые выделяют данные как часть ответов и находят иллюстративный материал для визуализации данных, они тонко обучают критическим навыкам информационной грамотности. Технический прогресс требует инноваций в педагогике. Толчок к этому не обязательно исходит из Берлина, Брюсселя или Парижа. Местные учебные заведения и компании также могут определить приоритетность задачи и начать работу. Или, говоря словами Джона Ф. Кеннеди: Мы решили делать эти вещи не потому, что они легки, а потому, что они трудны, потому что эта цель будет служить организации и измерению лучших наших энергий и навыков, потому что эта задача-та, которую мы готовы принять, та, которую мы не хотим откладывать, и та, которую мы намерены выиграть.”

# 7: Включение экологических соображений в цифровую повестку

Вопрос о том, какие данные мы собираем и анализируем, является экологическим. Энергопотребление цифровых технологий должно быть прозрачным и устойчивым.

Переосмысление подхода к обработке данных, монополиям платформ, конкуренции и предоставлению возможности традиционным предприятиям использовать технологии данных безопасным и выгодным образом не было бы полным без выделения проблем в текущем состоянии машинного обучения.

Когда Криштиану Роналду публикует фотографию для своих 199,2 миллионов подписчиков в Instagram, он использует 30 мегаватт-часов энергии. Это соответствует потреблению энергии шести немецких больших семей за 1 год.

Более того, специалисты по обработке данных, участвующие в сложных вычислениях с массивными массивами данных, потребляют еще большее количество энергии. В 2019 году исследователи из OpenAI разработали алгоритм манипулирования частями кубика Рубика роботизированной рукой. Для вычисления задачи была использована тысяча настольных компьютеров и дюжина компьютеров с графическими процессорами, что привело к потреблению энергии примерно до 2,8 гигаватт-часа, что примерно соответствовало мощности трех атомных электростанций в течение 1 часа, согласно оценке Эвана Спаркса, генерального директора Defined AI. 

По оценкам Министерства энергетики США, центры обработки данных по всему миру потребляют около 200 тераватт-часов электроэнергии в год. Считайте, что этот спрос был близок к нулю только поколение или около того назад. Некоторые прогнозы предполагают, что к 2030 году информационные и коммуникационные технологии будут потреблять от восьми до 20 процентов мировой электроэнергии. Треть этого потребления приходится на центры обработки данных. Бизнес и правительства требуют диалога с ведущими специалистами в области обработки данных и исследовательскими центрами внутри и за пределами интернет-компаний, чтобы решить эту проблему сегодня. По прогнозам, к 2025 году в мире будет 25 миллиардов подключенных устройств. Данные - это не новая нефть. Нефть - это конечный природный ресурс, который потребляется при его использовании. Данные живут. Он увеличивается со скоростью, которая сама по себе увеличивается. Если мы хотим использовать этот постоянно расширяющийся ресурс, мы должны быть внимательными стюардами, в то время как данные становятся все больше и больше.

Первым шагом должна стать прозрачность: компании должны срочно ввести стандарты устойчивости и экологической совместимости, аналогичные стандартам бухгалтерского учета. Крупные контрагенты, такие как Google, сделали значительные комментарии, сосредоточенные только на получении электроэнергии из возобновляемых источников энергии и повышении энергоэффективности с помощью инструментов и приложений машинного обучения. Тем не менее, Google не раскрывает свое энергопотребление. Сегодня предприятия всех размеров всерьез задумываются о том, как внедрить меры и технологии, чтобы быть более устойчивыми. Регулирующие органы по всему миру занимают более жесткую позицию в отношении раскрытия информации ESG (Environmental, Social, Governance). Наиболее регулируемыми темами являются деловая этика и изменение климата в финансовых услугах, энергопотребление и права потребителей в коммунальных службах США, а также безопасность продуктов и услуг в здравоохранении и фармацевтике. Это только вопрос времени, когда управление данными и безопасные и экологически чистые технологии данных будут рассматриваться в рамках ESG и даже станут обязательными в ряде отраслей, например, в финансовых услугах.

С помощью таких инструментов , как Калькулятор выбросов машинного обучения,следы алгоритмов CO 2 можно примерно вычислить. Производители чипов, такие как Nvidia и Qualcomm, инвестируют в производство энергоэффективных чипсетных архитектур. Эта направленность способствует повышению энергоэффективности всего технологического комплекса и поэтому должна поддерживаться.

Обращение к центрам обработки данных в национальной политике должно получить широкое распространение. Швейцария, например, предполагает, что к 2035 году на центры обработки данных может приходиться до 50% общего энергопотребления страны. Именно поэтому страна упорно работает над стандартами эффективности и над питанием серверов в основном за счет возобновляемых источников энергии.

Всемирный экономический форум перечисляет в книге “Четвертая промышленная революция для Земли”более 80 способов устойчивого использования ИИ. Ряд компаний сделали стратегические ставки на объединение Интернета вещей и технологий машинного обучения, на продажу датчиков для производственных, медицинских и сельскохозяйственных объектов. Технология может помочь защитить наш климат, но она может собрать много данных, которые на самом деле никому не нужны и которые, тем не менее, потребляют ценные ресурсы.

Вопрос о том, какие данные мы действительно хотим производить и собирать, также является экологическим.

#8: Увеличение инноваций вокруг небольших данных и конфиденциальности данных.

Демократизация информационных технологий немыслима без инноваций в области малых данных и конфиденциальности данных.

Существует бесчисленное множество ситуаций, в которых человеку трудно понять сложную взаимосвязь между большим количеством признаков. Однако компьютеры могут легко захватить его, исследуя большие объемы данных. Поскольку Питер Норвиг и его коллеги из Google обнаружили, что для решения конкретной задачи с достаточно большими данными очень разные алгоритмы работают практически одинаково, голод по сбору, хранению и обработке больших объемов данных привел в действие технологические стеки таких компаний, как Facebook, Alphabet, Amazon и Baidu. Сбор и обработка как можно большего количества данных не может быть устойчивым подходом в будущем, если мы хотим, чтобы множество компаний и частных лиц извлекали выгоду из данных. Решения, ориентированные на очень большие наборы данных, часто не имеют соответствующих методов лечения проблем смещения и дисперсии. Шум в этих больших массивах данных часто может подавлять важные сигналы, относящиеся к рассматриваемой проблеме (представьте, что вы пытаетесь услышать очень важный разговор в переполненном ресторане). В некоторых случаях, например, при обнаружении редких заболеваний, изначально недостаточно данных, поэтому “отсутствие” в этих больших корпусах представляет собой своего рода предвзятость подтверждения, которая может быть не только вводящей в заблуждение, но и расточительной тратой ресурсов, которые в противном случае могли бы решить проблему с помощью более правильных аналитических решений.

Использование небольших данных в современных успешных технологиях ML, таких как глубокое обучение, обсуждается не так много, как следовало бы.

Поощрение инноваций в области малых данных должно стать неотъемлемой частью любой цифровой повестки дня. Работа с малыми данными требует навыков в области статистики и науки о данных (включая очистку/подготовку данных), поскольку существует множество проблем, требующих решения, например, выбросы, перенастройка в моделировании или создание реалистичных выборок при работе с временными рядами. Есть некоторые методы, заслуживающие дальнейшего изучения, такие как:

• Включение предметных знаний для руководства процессом обучения (например, изучение концепции человеческого уровня с помощью вероятностной индукции программы и эвристики),

• Предварительно обучите сеть с более оптимальными стартовыми весами, чтобы избежать локальных оптимумов и других ловушек плохой инициализации при использовании сложенных автоэнкодеров, возможно, усиленных когнитивными методами для сходимости на правильных весах.,

• Внедрять ансамблевые механизмы в нейронные сети и обучать так называемых недельных учащихся производить прогнозирование с использованием таких алгоритмов, как машина опорных векторов или деревья решений, или других неконтролируемых или ансамблевых методов.,

• Используйте такие методы, как косинусные потери, для повышения точности для небольших наборов данных при переключении функции потерь с категориальных кросс-энтропийных потерь на косинусные потери для задач классификации.,

• Дополняйте данные или вносите небольшие изменения в данные, чтобы получить больше точек данных, экспериментируя с GANs для генерации новых данных (обратите внимание, что такие методы могут привести к путанице при обнаружении аномалий).

Если компании, некоммерческие организации, образовательные и медицинские учреждения, а также сообщества получат возможность использовать свои права собственности на данные через распределенные рынки данных, они смогут предоставить доступ к своим данным большему числу специалистов по данным. Наука о данных станет гораздо более федеративной, чем в современных моделях, ориентированных на крупные компании.

Инновации в области конфиденциальности данных происходят в крупных компаниях, даже когда они все чаще подвергаются штрафам за небрежное управление пользовательскими данными.

Google вложила значительные усилия в федеративное обучение, которое заключается в обучении централизованной модели децентрализованным данным и вычислении зашифрованных данных с нескольких устройств.

Нарушения больших данных, проблемы безопасного обмена большим объемом данных в учебных целях между исследовательскими институтами и неблагоприятные последствия раскрытия личной информации заставляют ряд частных и общественных организаций использовать модели конфиденциальности, такие как дифференциальная конфиденциальность. В этих моделях один набор данных систематически заменяется другим, который содержит различную информацию, но имеет те же статистические закономерности. Таким образом, можно избежать выводов о личности поставщика данных, поддерживая при этом необходимую аналитическую строгость для важных случаев использования.

Другая привлекательная технология - “Гомоморфная криптография”, в которой алгоритмы могут обрабатывать данные, не расшифровывая их. Такой подход позволяет интенсивно использовать ценные данные, включая высокий уровень защиты данных. Такие методы действительно многообещающие, хотя все еще существуют проблемы в некоторых случаях использования, таких как расширенное обнаружение аномалий и синтетические данные.

#9: Открытость и прозрачность в развитии информационных технологий должны финансироваться и защищаться.

Независимые исследователи должны иметь доступ к работе крупных интернет-компаний, чтобы внести свой вклад в риск mgmt. вокруг того, как создается ИИ.

Сегодня не хватает открытости и прозрачности в том, как развиваются информационные технологии. Например, исследования в области машинного и глубокого обучения все больше концентрируются в самых богатых американских и китайских компаниях. Эти частные компании создают и контролируют алгоритмы, которые формируют нашу жизнь и рабочее место. Неясно, как практика управления рисками уравновешивается необходимостью достижения коммерческих целей, таких как прибыль и рост. Отсутствие разнообразия по полу, расе, возрасту и опыту в различных областях дисциплин (в том числе гуманитарных) среди пионеров Интернета и их последователей в исполнительном управлении и корпоративных советах уже было оплакано в ряде подкастов, фильмов и публикаций. Менталитет «двигаться быстро и ломать вещи» может быть не лучшим вариантом при разработке систем ИИ и автоматизации, которые могут иметь далеко идущие последствия для людей и общества в целом. Кроме того, немногие оставшиеся независимые исследовательские центры с определенным масштабом неизбежно попадают в сферу влияния крупных коммерческих игроков, ограничивая проекты по предоставлению технологий искусственного интеллекта малым бизнесом, исследовательскими центрами и некоммерческими организациями. Академические круги, которые 20 лет назад смогли удержать самые яркие умы, не могут конкурировать с крупными технологиями за таланты в области искусственного интеллекта (Lauterbach and Bonime-Blanc, 2018).

Например, OpenAI предоставил Microsoft эксклюзивный доступ к GPT-3, крупнейшей в мире языковой модели и одной из важнейших инноваций в NLP. OpenAI изначально была основана как некоммерческая организация и собрала свой первоначальный миллиард долларов, исходя из того, что она будет заниматься ИИ на благо человечества. Он утверждал, что он будет независим от коммерческих финансовых стимулов и, таким образом, будет иметь уникальную возможность управлять технологией с учетом наилучших интересов общества. Однако с годами необходимость финансировать исследования сделала эту независимость неустойчивой.

В 2018 году Microsoft приобрела GitHub, шаг, который навсегда изменил культуру разработчиков и по мнению многих пользователей ограничил их свободу.

Сторонние исследователи держатся на расстоянии вытянутой руки даже в компаниях, где руководство утверждает, что работает над прозрачностью и оптимизацией технологий для социального блага. Например, в 2018 году Twitter запустил исследование , направленное на поощрение вежливости и улучшение поведения на платформе, и сотрудничал с Сьюзан Бенеш и Корнеллом Дж. Натаном Матиасом, основателем Citizens and Technology Lab. В итоге компания отказалась от проекта, сославшись на ошибки в кодировании.

Обеспечение государственного и частного финансирования институтов и инициатив в области искусственного интеллекта должно стать приоритетом на долгие годы, поскольку это способствует лучшему управлению рисками, связанными с созданием и внедрением информационных технологий. Мариана Маццукато, директор UCL Institute for Innovation & Public Purpose в Великобритании, в течение многих лет подчеркивала важность государственных инвестиций, которые стимулируют технологический прогресс в частных корпорациях, таких как Apple, и призывала к ориентированной на миссию промышленной политике для направления исследований на наиболее актуальные экономические и социальные проблемы. Ее последняя работа для Европейской комиссии была сосредоточена на подходах в государственном секторе к реагированию на пандемии Covid-19. Хотя она заявила о необходимости переосмыслить управление данными, экспериментировать с новыми формами собственности на интернет-платформы и данные, никаких конкретных решений не было предложено (Mazzucato and Kattel, 2020). Технологи должны вмешаться, чтобы предложить решения, выходящие за рамки отслеживания приложений для мобильных устройств.

#10: Платформы участия вокруг технологий передачи данных

Муниципалитеты, предприятия и некоммерческие организации всех размеров должны иметь возможность участвовать в расширении цифровых возможностей своих сообществ.

Построение диверсифицированного портфеля подходов к развитию понимания, компетентности и влияния в наиболее актуальных областях ИИ-непростая задача.

Часть успеха может быть достигнута сверху вниз, с помощью прогресса в государственной политике и финансировании, как это было упомянуто в предыдущем разделе этой статьи. Полезно и международное сотрудничество. Например, в 2020 году США и Великобритания подписали соглашение о совместной поддержке надежного ИИ (Декларация о сотрудничестве в области исследований и разработок в области искусственного интеллекта) в области междисциплинарных R&D, инноваций в области регулирования и развития рабочей силы.

Хорошие инициативы происходят через организации, координирующие промышленность, академические и некоммерческие организации, например, семинар "Партнерство по ИИ" на NeurIPS в 2020 году о нормах публикации в исследованиях ИИ.

Тем не менее, общество может получить более полную выгоду от ИИ и данных только в том случае, если местные организации откроются для изучения новых технологий, чтобы адаптировать их к своим потребностям. Говорят, что Альберт Эйнштейн заметил: “Мир нельзя изменить, не изменив нашего мышления.” Местное руководство необходимо для того, чтобы изучить весь потенциал данных и ИИ на благо многих. Начинать просто с нескольких основных бизнес-вопросов, скорее всего, будет эффективнее, чем призывать к масштабной реформе, которая, скорее всего, со временем потерпит неудачу. Быть прозрачным (иногда называемым объяснимостью) - это ключ. Амстердам и Хельсинки запустили в сентябре 2020 года реестры ИИ, чтобы объяснить, как каждое городское правительство использует алгоритмы для предоставления услуг в рамках Саммита Европейского Союза по интернет-политике следующего поколения. Это шаг в правильном направлении, поскольку технология передачи данных является частью ежедневных подходов к решению проблем.

Муниципалитеты всех размеров должны создавать центры, ориентированные на цифровые возможности своих сообществ и позволяющие координировать местные отрасли, стартапы и некоммерческие организации, чтобы компенсировать области перекрывающихся проблем, которые являются общими для всех участников местной экосистемы. Участвующие компании должны обеспечить, чтобы их API были хорошо документированы, напрямую сообщать о проблемах предвзятости, справедливости и безопасности, а также разрабатывать более совершенные системы для сохранения конфиденциальности разработчиков. Специалисты по машинному обучению должны тщательно проанализировать эти API перед их использованием, протестировать их на тестовых наборах данных, которые относятся к потенциально дискриминационным результатам проектов ML, поделиться этическими вопросами об API, открыв pull-запросы на странице GitHub разработчика (если таковые имеются), и четко указать использование API в документации о сервисах, в которых он используется. Все эти шаги будут работать не только на повышение объяснимости, но и помогут избежать непреднамеренного неправильного использования. С созданием местного рынка данных вокруг муниципалитетов могут быть решены конкретные вопросы поощрения предпринимательства и самозанятости, образования вокруг данных и повышения эффективности государственных расходов.

Прогресс в таких начинаниях-прямая функция лидерства. Успешные компании, занимающиеся искусственным интеллектом, потратили немало усилий на то, чтобы разрушить изолированные структуры, повысить эффективность обучения во всей организации и использовать сетевые эффекты для получения наилучшего результата от базовых данных и информационных технологий. Эти передовые методы исполнения могут быть применены как в частном, так и в государственном секторах.

Мы действительно находимся на перепутье в том, что касается данных и искусственного интеллекта. Это не гарантия того, что весь прогресс приведет нас в позитивном направлении. Сосредоточившись на ключевых руководящих принципах, мы можем не только размышлять о том, как мы можем использовать поразительное изобилие инструментов и технологий, но и почему. Это размышление было бы мощным шагом в правильном направлении.

Заявление о доступности данных

Оригинальные материалы, представленные в исследовании, включены в статью/дополнительный материал, дальнейшие запросы могут быть направлены соответствующему автору/авторам.

Примечание автора

Эта статья была ответом на практический недостаток текущих цифровых программ в Германии и Европе и предлагает всестороннее представление о критических компонентах политики от технологических вопросов (например, протоколы для децентрализованных рынков данных, обработка небольших данных) до социальных вопросов (например, цифровая грамотность, доверие к данным) и геополитических аспектов (усилия США и Китая в области цифровой политики и политики ИИ).

Авторские Материалы

Автор подтверждает, что является единственным автором этой работы и одобрил ее к публикации.

Конфликт интересов

Автор заявляет, что исследование проводилось в отсутствие каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.

Рекомендации

Acemoglu, D., Makhdoumi, A., Malekian, A., and Ozdaglar, A. (2019). Too Much Data: Prices and Inefficiencies in Data Markets. NBER Working Paper No. 26296, September 2019, JEL No. D62,D83,L86. Available online at: https://www.nber.org/papers/w26296(accessed January 04, 2021).

Google Scholar

Delacroix, S., and Lawrence, N. D. (2019). Bottom-up data trusts: disturbing the ‘one size fits all' approach to data governance. Int. Data Privacy Law 9, 236–252. doi: 10.1093/idpl/ipz014

CrossRef Full Text | Google Scholar

Lauterbach, A. (2019). “Trojanische Verhältnisse?” in Tobias Loitsch, China im Blickpunkt des 21. Jahrhunderts: Impulsgeber für Wirtschaft, Wissenschaft und Gesellschaft (Berlin: Springer), 1–17.

Google Scholar

Lauterbach, A., and Bonime-Blanc, A. (2018). The Artificial Intelligence Imperative: A Practical Roadmap for Business. Transl. by I. Bremmer. Praeger (Santa Barbara, CA), 99–100.

Google Scholar

Mazzucato, M., and Kattel, R. (2020). Covid-19 and public sector capacity. Oxford Rev. Econ. Policy 36(Suppl. 1), S256–S259. doi: 10.1093/oxrep/graa031

CrossRef Full Text | Google Scholar

Mills, S. (2019). Who owns the future? Data trusts, data commons, and the future of data ownership. Working Draft. doi: 10.2139/ssrn.3437936

CrossRef Full Text | Google Scholar

Paprica, P. A., Sutherland, E., Smith, A., Brudno, M., Cartagena, R. G., Crichlow, M., et al. (2020). Essential requirements for establishing and operating data trusts: practical guidance co-developed by representatives from fifteen Canadian organizations and initiatives. Int. J. Popul. Data Sci. 5:1353. doi: 10.23889/ijpds.v5ii.1353

PubMed Abstract | CrossRef Full Text | Google Scholar

Voshmgir, S. (2020). Token Economy. How the Web3 Reinvents the Internet, 2nd Edn. Berlin: Token Kitchen.

Отказ от ответственности: Приведенный выше текст является любительским переводом, выполненным членом сообщества Oasis. Первоисточник