December 16, 2024

ИИ хочет больше данных. Больше чипов. Больше недвижимости. Больше электроэнергии. Больше воды. Больше всего

Казалось бы, всё просто: задаёшь ChatGPT вопрос, и он отвечает. Но за кулисами становится ясно, что каждый промт к ChatGPT или задача Microsoft Copilot требуют огромных ресурсов. Миллионы людей занимаются инженерией, корректировкой и обучением моделей. Затраты электричества измеряются тераватт-часами, которых хватило бы для снабжения целых стран энергией. Центры обработки данных занимают огромные площади по всему миру. Для работы таких систем нужны электрические сети, интернет-кабели, вода, земля, металлы и минералы. Искусственный интеллект требует всего этого — и будет требовать ещё больше.

Исследователи подсчитали, что один запрос к ChatGPT потребляет почти в 10 раз больше электроэнергии, чем обычный поиск в Google. Обычные поисковые системы индексируют содержимое Интернета, сохраняя его в огромных базах данных. Новые продукты на базе искусственного интеллекта используют так называемые большие языковые модели (LLM), которые обучаются на миллиардах слов текста — от произведений Уильяма Шекспира до последних прогнозов Федеральной резервной системы. Модели выявляют закономерности и взаимосвязи, развивая миллиарды параметров, которые помогают им имитировать человеческое поведение. С их помощью ChatGPT и подобные инструменты создают новый контент — отсюда и термин «генеративный ИИ».

Большие ресурсы — залог самых продвинутых систем ИИ. Это порождает конфликты из-за дефицитных ресурсов, включая доступ к микрочипам. Эти вызовы мотивируют технологические компании искать более эффективные методы разработки ИИ. Компании вкладывают миллиарды долларов в альтернативные источники энергии, такие как термоядерный синтез, который десятилетиями находился на грани прорыва из-за недостаточного финансирования и технологических достижений. В то же время требования ИИ усиливают давление на энергетическую отрасль, заставляя продолжать сжигать ископаемое топливо для питания электрических сетей, несмотря на глобальные цели по сокращению выбросов углекислого газа.

Хотя развитие ИИ открывает большие возможности для инвесторов, бизнеса и общества, оно сопряжено с рисками. Многие эксперты предупреждают о потенциальном вреде и предвзятости таких систем. А на Уолл-стрит уже устали ждать, когда технология начнёт приносить значимую прибыль. Даже акцент на эффективность может обернуться проблемой для тех, кто слишком активно инвестирует в инфраструктуру.

Ещё 1000 тераватт-часов энергии

ИИ в основном существует и работает в центрах обработки данных, заполненных материнскими платами, микрочипами и устройствами хранения данных. Спрос на электроэнергию в этих центрах уже превышает доступное предложение во многих частях мира. По прогнозам Goldman Sachs, в США центры обработки данных будут потреблять 8% от общей энергии к 2030 году — почти втрое больше, чем в 2022 году, когда начался бум ИИ. Подобный рост ожидается в Швеции и Великобритании. К 2034 году мировое потребление энергии центрами обработки данных может превысить 1580 тераватт-часов в год — примерно столько же, сколько сегодня использует вся Индия, по сравнению с 500 тераватт-часами сейчас.

Энергия на подъёме

Общее потребление энергии, в тераватт-часах.

Источник: отчеты компаний

Центры обработки данных Alphabet Inc. (Google) потребили более 24 тераватт-часов электроэнергии в 2023 году — на 31% больше, чем в 2021 году. Потребление Microsoft было примерно на том же уровне, увеличившись на 70% за два года. Крупнейшие технологические компании осознали, что электроэнергия может стать наиболее уязвимым звеном в цепочке поставок ИИ, и начали заключать долгосрочные контракты на её поставки. В мае Microsoft и Brookfield Asset Management подписали крупнейший корпоративный контракт на поставку чистой энергии.

В октябре NextEra Energy Inc., крупнейший в мире производитель солнечной и ветровой энергии, заявил о соглашениях на разработку 10,5 гигаватт возобновляемой энергии и систем хранения к 2030 году для двух компаний из списка Fortune 50, которые даже не связаны с технологиями. Это подчёркивает, что ИИ усиливает конкуренцию за ресурсы в других отраслях, где также требуется низкозатратная энергия.

Ископаемое топливо и его роль

Уголь, один из самых углеродоёмких источников энергии, до сих пор обеспечивает около трети мировых поставок электроэнергии. Природный газ, также вызывающий выбросы парниковых газов, занимает ещё 20%. Ветроэнергетика и солнечные фермы набирают популярность, но отсутствие больших батарей, способных компенсировать перебои в подаче энергии, остаётся проблемой для центров обработки данных, которые требуют стабильного энергоснабжения.

Google разработал методику, позволяющую использовать программное обеспечение для поиска чистой энергии в регионах с избытком солнца и ветра, а затем масштабировать операции центров обработки данных именно там. В противном случае, единственным надёжным источником энергии с нулевыми выбросами остаётся атомная энергетика. Microsoft подписала соглашение о возобновлении работы реактора на атомной станции Three Mile Island в Пенсильвании — месте печально известной аварии 1979 года. Amazon в октябре подписал три договора на разработку малых атомных реакторов, а Google вложил средства в аналогичные проекты модульных реакторов.

Увеличение пропускной способности сетей

Электросети и подстанции являются недооценённым звеном в цепочке поставок ИИ. Все новые центры обработки данных должны быть подключены к сети, которая уже стара, перегружена и уязвима перед экстремальными погодными условиями (например, ураган Хелен). На мероприятии Bloomberg Intelligence в апреле Брайан Вентуро, соучредитель компании CoreWeave Inc., предоставляющей облачные сервисы, отметил, что его компания разрабатывает гигантские центры обработки данных, которые существенно нагрузят энергосистему. Например, если подстанция в промышленной зоне сейчас обеспечивает 30 мегаватт, из которых центру обработки данных требуется только 5 мегаватт, то в будущем такие центры будут запрашивать до 500 мегаватт. Это требует строительства новых линий электропередач и модернизации подстанций, для чего иногда необходимо заказывать трансформаторы за несколько лет до их установки.

В ещё более масштабной перспективе, по словам соучредителя OpenAI и генерального директора Сэма Альтмана, некоторые центры могут потребовать до 5000 мегаватт мощности. Джо Домингес, генеральный директор Constellation Energy Corp., управляющей АЭС Three Mile Island, утверждает, что создание такой инфраструктуры с нуля в кратчайшие сроки практически невозможно. Его решение: строить мегакомплексы рядом с существующими крупными энергетическими ресурсами, такими как атомные станции. Такие кампусы могли бы объединять ядерные реакторы, возобновляемые источники энергии, батареи и специальные линии электропередач для создания автономных энергосистем.

Миллиарды литров воды ежедневно

Каждый ватт электроэнергии, используемый сервером, генерирует тепло. Избыточное тепло может повредить оборудование и замедлить работу систем. Сейчас для охлаждения воздуха в центрах обработки данных наиболее экономически и энергетически эффективными остаются системы на водной основе. Исследования Bluefield Research показывают, что центры обработки данных ежедневно потребляют более миллиарда литров воды, включая ту, что используется для производства энергии. Это эквивалентно дневным потребностям 3,3 миллиона человек. Например, беседа с ChatGPT из 10–50 вопросов и ответов может потребовать стандартную бутылку воды объёмом 500 мл. Только для обучения одной из ранних моделей ChatGPT потребовалось около 200 тысяч галлонов воды.

Вычисления требуют много воды

Мировое потребление воды центрами обработки данных в галлонах в день.

Источник: исследования Bluefield

Ситуация усугубляется тем, что большая часть воды, используемой центрами, имеет питьевое качество, чтобы избежать экологических проблем и отказов оборудования. В Уэст-Де-Мойне, штат Айова, сеть центров обработки данных Microsoft, используемая OpenAI, превратила технологическую компанию в крупнейшего потребителя воды в регионе, обогнав сам город. В Талавера-де-ла-Рейна, небольшом испанском городке, компания Meta столкнулась с протестами из-за планов построить центр, который будет потреблять около 665 миллионов литров воды в год.

Удвоение интернет-пропускной способности

Большие языковые модели, лежащие в основе генеративного ИИ, обучаются, обрабатывая огромные объёмы данных через интернет. Пользователи инструментов ИИ только увеличивают эту нагрузку. В мае генеральный директор AT&T Джон Стэнки сообщил, что спрос на сети компании вырос на 30% за год и не замедлится в условиях растущего использования ИИ. «Если объёмы продолжат расти на 30–35% ежегодно, нужно строить новые магистрали для передачи данных», — сказал он.

За последние пять лет трафик Verizon Communications Inc. удвоился благодаря потоковому видео, а за следующие пять лет он, вероятно, удвоится вновь из-за запросов и данных, обрабатываемых ИИ. «ИИ — это следующая машина роста для нас», — заявил в интервью CEO Verizon Consumer Group Совмьянараян Сампат. Для удовлетворения спроса компании активно инвестируют в развитие сетевой инфраструктуры. Например, в августе телекоммуникационная компания Lumen Technologies Inc. объявила о привлечении 5 миллиардов долларов для поддержки спроса на пропускную способность, вызванного ИИ.

Земля для тысяч дата-центров

Сегодня в мире существует более 7 тысяч центров обработки данных, находящихся на разных стадиях строительства или эксплуатации, что почти вдвое больше по сравнению с 2015 годом. Однако этого всё равно может не хватить. Спрос на такие услуги резко возрос ещё до появления ChatGPT, поскольку компании всё чаще переходили на удалённые облачные сервисы. Теперь каждая крупная страна стремится создать собственные ИИ-хабы, что запускает глобальную инфраструктурную гонку.

Центры обработки данных требуют земли. Например, инвестиционный фонд недвижимости Equinix Inc., специализирующийся на таких объектах, приобрёл участок площадью 200 акров для строительства кампуса мощностью в несколько сотен мегаватт. Другой разработчик арендовал участок в 2000 акров для создания гигабайтного центра. Подходящая для таких проектов земля является дефицитным ресурсом, что вызывает ценовые войны. Кроме того, для строительства требуются материалы, которые находятся в состоянии дефицита, а также квалифицированные рабочие, которых также не хватает.

Чипы, чипы, чипы

Графические процессоры (GPU) — это рабочие лошадки, используемые для обучения моделей ИИ. Они разработаны для выполнения тысяч задач одновременно, используя принцип параллелизма. Центр обработки данных может использовать сотни или даже тысячи таких процессоров, каждый из которых стоит дороже семейного автомобиля. Практически всем крупным технологическим компаниям не хватало таких чипов, когда начался бум генеративного ИИ. Microsoft и Google, среди прочих, упоминали о дефиците GPU как о вызове в своих финансовых отчётах.

Рост стоимости акций производителей чипов

Филадельфийский индекс полупроводникового сектора

Источник: Bloomberg

Nvidia Corp. подняла ставки для всех, перейдя к ежегодному выпуску новых технологий. Это создало дополнительную нагрузку на уже перегруженные цепочки поставок. В ноябре компания заявила, что её новый продукт Blackwell идёт с опережением графика, но для полного удовлетворения спроса потребуется ещё несколько кварталов.

Кремний, сталь, кварц и медь

Для производства чипов, цепей и процессоров необходим кремний. Китай является крупнейшим производителем сырого и переработанного кремния, что вызывает обеспокоенность в условиях нарастающей напряжённости между этой страной, США и их союзниками. В октябре ураган Хелен, помимо гибели десятков людей, нарушил работу двух шахт в Северной Каролине, которые производят около 80% высококачественного кварца, используемого для создания кремниевых пластин.

Ценность меди

Трёхмесячная форвардная цена на медь на Лондонской бирже металлов (LME) за метрическую тонну.

Источник: Bloomberg

Полупроводники также содержат золото, серебро, алюминий и олово. Пока этих металлов достаточно для работы фабрик. Однако два менее известных металла — галлий и германий — становятся потенциальными узкими местами. В декабре Китай объявил о запрете их экспорта в США как части технологической войны. Медь используется в чипах, центрах обработки данных, электрическом оборудовании и системах охлаждения, что потенциально может создать конкуренцию между потребностями ИИ, возобновляемой энергетики и электрического транспорта. Сталь, в свою очередь, играет ключевую роль в строительстве центров обработки данных и другой инфраструктуры, например кабелей.

Больше людей, чем кажется

Много говорится о рабочих местах, которые может заменить ИИ. Например, в феврале шведская финтех-компания Klarna Bank AB заявила, что её ИИ-ассистент выполняет работу 700 штатных сотрудников службы поддержки. Глобальные исследовательские компании предупреждают, что в таких секторах, как финансы, юриспруденция и обслуживание клиентов, будут масштабные сокращения рабочих мест. Международный валютный фонд оценивает, что ИИ может заменить или дополнить почти 40% рабочих мест по всему миру.

Тем не менее компании, работающие с ИИ, сами по себе нанимают миллионы сотрудников. Среди специалистов, занятых в этой отрасли, — компьютерные учёные, архитекторы данных, исследователи, математики, инженеры, дизайнеры микрочипов, менеджеры проектов и юристы по вопросам соответствия. Кроме того, есть целые армии аналитиков, маркетологов и продавцов. Например, в ноябре Salesforce Inc. объявила о планах нанять более 1000 человек для продвижения своего нового генеративного ИИ-продукта.

Спрос на квалифицированные кадры создаёт узкие места на рынке труда. Технологические инвесторы и стартапы жалуются на нехватку подготовленных специалистов. В Кремниевой долине даже появился термин «AI-vies» (по аналогии с Лигой Плюща), чтобы обозначить компании, такие как Alphabet, Microsoft и OpenAI, которые готовят кадры, желаемые другими. Многие из этих специалистов привлекаются из-за рубежа, например из Индии, для создания и очистки высококачественных наборов данных, необходимых для обучения ИИ.

Данных меньше, чем ожидалось

Генеративным ИИ-моделям необходимы качественные данные так же, как человеку нужна еда. Большие языковые модели обучаются на текстах, которые разбиваются на небольшие единицы — токены. На основе этих данных модели выявляют закономерности, которые помогают прогнозировать текст в повторяющемся процессе. Современные языковые модели были обучены на триллионах токенов. Для контекста: 2048 токенов примерно равны 1500 словам. Оценки общего объёма текстовых данных в мире варьируются от нескольких триллионов до тысяч триллионов токенов.

Однако даже такое изобилие данных может оказаться недостаточным для того, чтобы развитие ИИ продолжалось столь же стремительно, как ожидают. Некоторые из ведущих разработчиков, такие как OpenAI, уже сталкиваются с трудностями в поиске новых, ранее неиспользованных источников качественных данных для своих моделей.

Недостаток данных на языках, отличных от английского, и ещё меньшее количество данных, фокусирующихся на небелых или не западных сообществах, может привести к появлению ИИ-продуктов, демонстрирующих предвзятость. Например, анализ Bloomberg показал, что ИИ-модель, лежащая в основе ChatGPT, проявляет предвзятость к определённым расовым группам на основе имён при анализе резюме. OpenAI утверждает, что результаты не обязательно отражают то, как клиенты используют их модели, и что компания активно работает над выявлением потенциального вреда.

«Хорошие» данные: конфликт интересов

Качество и количество данных, используемых для обучения ИИ, имеют критическое значение. Производители данных и контента, от медиа-организаций до финансовых институтов, всё больше осознают ценность своей информации для разработчиков ИИ. Голливудские актёры и сценаристы в 2023 году объявили забастовку, чтобы защитить свои права на творчество от технологий. Издательства, такие как The New York Times, и крупные звукозаписывающие компании подали в суд на ИИ-компании за использование их данных, защищённых авторским правом, для обучения моделей. Компании-разработчики ИИ утверждают, что использование общедоступных материалов является законной практикой в рамках «добросовестного использования».

В недавнем выступлении перед инвесторами генеральный директор S&P Global Inc. Мартина Чеунг заявила: «Большая языковая модель хороша настолько, насколько качественны и объёмны данные, на которых она обучена. А у нас много высококачественных данных». В течение прошлого года OpenAI заключила соглашения с такими компаниями, как News Corp., Condé Nast, Hearst, Reddit, издатель People Dotdash Meredith и Axel Springer, чтобы использовать их контент.

Искусственные данные: возможное решение?

Технологические компании экспериментируют с использованием «синтетических» наборов данных — контента, созданного самими ИИ-моделями. В теории это позволяет удовлетворить бесконечный спрос на данные, избегая правовых, этических и связанных с конфиденциальностью проблем, возникающих при сборе информации из интернета. Однако некоторые исследователи предупреждают, что модели ИИ могут «рушиться», если их обучать контенту, созданному другими ИИ. В 2023 году одно из исследований показало, что изображения людей, созданные ИИ, становились всё более искажёнными, если модель переобучалась на своих собственных данных.

А может быть, ресурсов потребуется меньше, чем ожидалось?

Инвесторы, операторы центров обработки данных, энергетические компании и другие бизнесы вливают сотни миллиардов долларов в цепочку поставок ИИ. Каждая крупная финансовая структура и частный инвестор стремятся получить свою долю из прогнозируемого триллиона долларов, которые будут вложены в инфраструктуру ИИ. Капитальные расходы компаний Alphabet, Amazon, Meta и Microsoft в 2024 году превысят 200 миллиардов долларов. Индекс S&P 500 в секторе коммунальных услуг вырос на 22% за последний год, а рыночная капитализация компании Equinix, занимающейся недвижимостью для центров обработки данных, почти удвоилась с конца 2022 года. Акции Nvidia выросли почти на 700% за два года, сделав компанию одной из самых дорогих в мире.

Тем не менее никто не знает, продолжит ли ИИ оставаться ведущим трендом. Некоторые аналитики Уолл-стрит уже начинают прогнозировать спад. Инвесторы начинают задаваться вопросом, принесёт ли когда-нибудь крупные технологические компании ту прибыль от ИИ, которую они себе представляли. Возможно, самая большая угроза для сотен миллиардов долларов инвестиций в ИИ — это одержимость эффективностью со стороны разработчиков.

Генеральный директор Applied Materials Inc. Гэри Дикерсон заявил инвесторам в ноябре, что некоторые компании в области ИИ стремятся к «100-кратному улучшению» вычислительной эффективности в течение пяти лет. Другие нацелены на 10 000-кратный рост за 15 лет. «Эффективность становится объединяющей движущей силой для всей индустрии», — сказал он.

оригинал: AI Wants More Data. More Chips. More Real Estate. More Power. More Water. More Everything