Все о данных
November 13, 2020

Интегрировать данные становится сложно но и более важно. Часть 4.

В поисках «цифровой истины».

Гики известны тем, что они не поэты. Но иногда даже они умеют красиво говорить, например, когда пытаются описать основную проблему работы с данными. Они говорят, что это поиск «единой версии истины».

Это также прекрасно описывает то, что было целью корпоративной информационной технологии с тех пор, как она появилась 60 лет назад. И эта высказывание инкапсулирует основное напряжение для бизнеса в экономике данных: поиск цифровой истинны - то есть идентификация и объединение данных, которые точно представляют реальность—становится все более трудным и более важным.Трудным потому, что данные и их источники множатся. И что еще более важно, потому что фирмы должны создавать свою базу данных, чтобы извлечь выгоду из ИИ, который они должны создавать конкурентоспособными. ИИ повышает доходы и прибыль, согласно недавнему опросу консалтинговой компании McKinsey (см. диаграмму).

К счастью, технология приходит на помощь. Программное обеспечение для обработки данных и облачные вычисления все чаще позволяют то, что Джордж Гилберт, инвестор и ветеран IT-индустрии, называет " AI-ssembly line " - в отношении того, что произошло сто лет назад, когда электричество заменило пар в качестве основного источника энергии на заводах. Раньше машины должны были быть тесно сгруппированы вокруг источника питания-парового двигателя. Затем электричество позволяло распределять электроэнергию там, где она была необходима, что делало возможным строительство сборочных линий. Однако то, что происходит сейчас, на самом деле является обратным: машины цифровой эпохи,бизнес— приложения и программное обеспечение фирмы для их создания фактически перегруппировываются вокруг нового источника питания: центральных цифровых хранилищ, известных как “хранилища данных” или “озера данных”. Со временем это может позволить компаниям создавать цифровых близнецов самих себя.

Найти цифровую истину трудно, потому что данные поступают из многих источников и в самых разных форматах, что делает их сложными для интеграции. Даже такие простые вещи, как имя клиента, могут быть определены и сохранены многими различными способами. Компании могут иметь тысячи программных приложений, каждое из которых имеет свою собственную базу данных. Неудачные попытки объединить или связать эти цифровые хранилища стоили армиям главных информационных офицеров их рабочих мест.

Интеграция данных уже является серьезной проблемой, когда она существует главным образом для отслеживания “транзакций” фирмы, таких как обработка заказа или управление цепочкой поставок.В 1990-х годах фирмы начали использовать свои данные, чтобы проводить аналитику. Десять лет назад они обратились к майнингу своих данных, чтобы сделать прогнозы о своем бизнесе, подход, который сначала назывался " большими данными” , а теперь AI. Сегодня данные фирмы часто не просто распределены по многим локальным базам данных, а живут в различных облачных службах и потоках от третьих сторон и подключенных устройств.

Именно хранилища данных и озера данных, позволяют проще использовать цифровой материал. Они отличаются тем, как они структурируют информацию—первый принимает более жесткий подход, чем второй, хотя различий становятся все меньше - оба теперь могут жить в облаке. Это делает их не только дешевле в управлении, но они теперь могут быть более легко объединены с данными из различных источников и используются многими различными пользователями. Одно из них сделано Snowflake, другим стартапом, который превратил свое хранилище данных в то, что он называет “платформой данных”, которая может растягиваться через различные вычислительные облака. Крупные поставщики облачных услуг, такие как Amazon Web Services и Microsoft Azure, предлагают аналогичные продукты.

Второе улучшение - это специализированные базы данных, которые заботятся о определенных типах данных. Поскольку данные теперь часто поступают не в виде статических блоков, а в виде цифровых потоков в реальном времени, их нужно рассматривать по-разному, объясняет Джей Крепс, исполнительный директор стартапа с соответствующим названием Confluent. Он продает облачные сервисы на основе Apache Kafka, программы с открытым исходным кодом, которые анализируют эти потоки и сбрасывают их в озера данных. Bosch, немецкий конгломерат, использует Confluent для сбора и добычи данных из электроинструментов для управления ремонтными службами и строительными площадками.

Третья группа программного обеспечения и услуг, которые превращают все это в “AI - ssembly line”г-на Гилберта. Некоторые из этих инструментов подготавливают данные для обработки, другие облегчают проектирование и обучение ИИ алгоритмов, что бы развернуть их в приложении для автоматизации принятия решений и постоянно совершенствоваться. Enel, утилита которая использует такие инструменты для разработки сервиса, который помогает ей идентифицировать воров электроэнергии, за которыми она должна идти в первую очередь. Нефтяная компания Shell разработала алгоритмы, которые гарантируют, что ее тысячи запасных частей всегда доступны по всему миру. А Kiva, некоммерческий кредитор, построил хранилище данных с Snowflake, что позволяет ему принимать лучшие решения о том, кто должен получать кредиты.

Многим другим фирмам повезло меньше, поскольку они забывали, что технологии всегда являются лишь частью решения. Мотивированные исследованиями, которые показали, что ИИ увеличивает прибыль, в некоторых случаях, паникуя из-за возможности того, что стартап может им помешать, пытались построить сборочную линию ИИ самостоятельно, но потерпели неудачу. У них не было подходящих разработчиков и специалистов по обработке данных или они не хотели платить запредельные зарплаты. Это создало возможность для ИТ-поставщиков продавать готовые версии AIassembly.

Тем временем, на нефтеперерабатывающем заводе

Возьмем в первую очередь тех, кто пытается наращивать свои сильные стороны. В случае с дедушкой, IBM, это услуги. Это помогает фирмам построить то, что Арвинд Кришна,новый босс, называет “плоскостью данных”, коллекцией программ для разработки приложений ИИ. Он также стал сам по себе очистителем данных: например, он собирает и продает детальные погодные данные, которые страховщики могут использовать для расчета тарифов, а коммунальные службы для прогнозирования возможных отключений электроэнергии. И он предлагает целый ряд услуг искусственного интеллекта, включая визуальное распознавание и перевод, которые Другие фирмы могут подключить к своей продукции.

Oracle, ведущий мировой поставщик реляционных баз данных по-прежнему рабочая лошадка корпоративных ИТ , стремится расширить это положение, предоставляя то, что он называет
“автономной базой данных”. Этот тип сервиса объединяет и автоматизирует все виды цифровых репозиториев, плюс биты ИИ, поэтому клиентам не нужно самостоятельно собирать все эти программы. ” Это много двигателей данных в одном двигателе“, —объясняет Пол Зондереггер, старший стратег по данным фирмы, добавив, что такая интеграция будет иметь ключевое значение для повышения производительности данных фирмы.

Что касается более молодых ИТ-компаний, они все чаще предлагают помощь фирмам в выстраивании своих цифровых уток.. Salesforce, которая выросла как веб-сервис для управления отношениями с клиентами, потратила миллиарды долларов за последние два года на разработку собственного ИИ технологию, названную Эйнштейном, и приобретают две компании с большими данными, MuleSoft и Tableau. Идея, говорит Брет Тейлор, президент и главный операционный директор Salesforce, заключается в том, чтобы позволить фирмам консолидировать и связать свои данные, чтобы они могли иметь “единый взгляд на своих клиентов”. Это позволяет компаниям легче предвидеть, что будут делать их клиенты, персонализировать предложения и всегда распознавать их, независимо от того, появляются ли они в розничном магазине или в интернете.

Затем есть множество более мелких фирм. Databricks собрал платформу

искусственного интеллекта, дополненную инструментами для очистки данных, построения алгоритмов и их развертывания. C3.ai предлагает нечто подобное, но в основном стремится помочь крупным фирмам через их цифровую трансформацию. Qlik известен аналитикой и визуализацией данных, но недавно перешел в AI .

Но, несмотря на такие инструменты, многие проекты ИИ по- прежнему разочаровывают, говорит Дебра Логан из Gartner, компании по исследованию рынка. Одна большая проблема это силосы данных, которые отражают внутренние границы фирмы. Различные отделы внутри компании, боясь потерять власть, неохотно делятся своими данными или изменяют то как и что они собирают.(делая замечание, что структуры данных часто являются просто тонко завуалированными структурами власти). Это не позволило многим фирмам разработать последовательную “стратегию данных”, которая обеспечивала бы фактический сбор и анализ информации, необходимой им для достижения своих бизнес-целей.

"Мы думаем, что данные объективны, но на самом деле они так же интерпретируемы, как Шекспир”

Чтобы преодолеть такие цифровые подразделения, некоторые компании провели организационные изменения. Все больше компаний назначают “главного сотрудника по данным” ,гарантирует что ИТ- отдел и бизнес-подразделения работают вместе, что они должны построить что-то похожее на ИИ. Но все же перемены наверху, как и в технологиях, не стоят многого, если остальная компания не готова. "Плохая информационная грамотность “является вторым по величине барьером для корпоративных информационных проектов, которому предшествуют только” культурные вызовы для принятия изменений", согласно недавнему опросу Gartner. Изменение этого не означает, что все сотрудники должны стать учеными в области обработки данных, а то что они должны иметь базовое представление о том, какие данные могут быть использованы, а
какие нет, говорит Майк Поттер, главный технический директор Qlik.

Данные, утверждает он, никогда не бывают нейтральными и всегда должны подвергаться сомнению: они могут быть собраны по политическим причинам или способом, который скрывает определенные вещи. “Мы все думаем, что данные настолько объективны, - говорит он, - но на самом деле они так же интерпретируемы, как и Шекспир. Несмотря на все технологии, возможно, никогда не будет единой версии истины. ■

Часть 5

Эта статья появилась в специальном разделе печатного издания The Economist под заголовком " Новая линия AI-ssembly"

Автор хотел бы выразить признательность за щедрую помощь, оказанную ему многими людьми при подготовке настоящего доклада. Помимо тех, кто упомянут в тексте, особую благодарность выражают Алессандро Аксиотти из Университета Карнеги-Меллон, Алина Бланкертц из Stiftung Neue Verantwortung, Мартин Касадо из Andreessen Horowitz, Дирк Дидаскалу из AWS, Мартин Флеминг из IBM, Джейсон Фурман из Гарвардского университета, Али Годси из Databricks, Джон Хейгел из Deloitte, Стивен Орбан из AWS, Тони Керзон Прайс из openDemocracy, Генри Фаррелл из Университета Джорджа Вашингтона, Томас Рэмдж, пинг ли из Accel Partners, Мэтт Прюитт из RadicalxChange, Макс Ширсон из Battery Ventures, Джеймс Шорт из Калифорнийского университета в Сан-Диего, Бипул Синха из Rubrik, Dawn Song из Oasis Labs, Джуила Уайт из Microsoft и Матей Захария из Databricks.
https://www.economist.com/special-report/2020/02/20/a-deluge-of-data-is-giving-rise-to-a-new-economy