Дата-центр ЦЕРН на 1 эксабайт: как хранят данные
Большая наука невозможна без больших вычислений. По крайней мере, это утверждение справедливо в ядерной физике. Мы видим, что львиная доля самых мощных суперкомпьютеров установлена именно в научных учреждениях, в том числе университетах. Сразу несколько отраслей современной науки напрямую зависят от компьютерных расчётов и анализа больших данных, собранных по результатам наблюдений.
Например, в Европейском центре ядерных исследований (ЦЕРН) работает один из крупнейших дата-центров в мире. Без этого вычислительного кластера мы бы искали бозон Хиггса ещё очень долго, а Стандартная модель так бы и осталась незавершённой.
Центр обработки данных ЦЕРН — сердце всей научной, административной и вычислительной инфраструктуры ЦЕРН. Абсолютно все подразделения и службы ЦЕРН используют оборудование, которое располагается здесь. Это не только расчёт научных данных, но и обслуживание веб-сайта ЦЕРН, электронной почты, видеоконференции и прочие «бытовые» нужды.
За несколько десятилетий дата-центр ЦЕРН прошёл путь от мейнфреймов к рабочим станциям UNIX (начало 90-х), затем к кластерам из рядовых ПК на полках (начало 2000-х) — и наконец к стандартной стоечной архитектуре (конец 2000-х).
В помещении ЦОДа установлено более 10 000 серверов и 450 000 процессорных ядер. Более 90% вычислительных ресурсов предоставляются через частное облако на базе OpenStack — проекта с открытым исходным кодом по созданию масштабируемой облачной операционной системы.
IT-отдел ЦЕРН находится Женеве (Швейцария). В нём работают более 300 человек из 20 стран-участниц проекта. Сам дата-центр включает три помещения на 1400, 1200 и 200 м² и комнату управления, где круглосуточно дежурят операторы. Для надёжности все данные дублируются на серверы в другом здании.
Дата-центр в Женеве — это только первый уровень (Tier 0) из более сотни дата-центров, которые хранят и обрабатывают данные БАК:
Из презентации 2013 года, на которой РФ ещё участвует в проекте
▍ Ключевые показатели ЦОДа
Ключевые показатели дата-центра ЦЕРН транслируются в реальном времени. Например, на конкретный момент в июне 2024 года задействовано 12 100 серверов, 357 300 процессорных ядер, 218 500 дисков, 188 ленточных накопителей, 302 маршрутизатора и 5100 точек WiFi:
Несмотря на множество «офисных» задач, основная нагрузка дата-центра — обработка данных с Большого адронного коллайдера (БАК). Всё-таки ЦЕРН — это научная организация.
Вычислительные фермы БАКа просеивают и фильтруют данные в режиме реального времени. Только самые необходимые данные отправляются в основной ЦОД, где сейчас хранится более эксабайта данных.
Нужно заметить, что ЦОДы многих коммерческих компаний давно преодолели отметку в 1 эксабайт хранимой информации. Это некий рубеж для «эксабайтного клуба», в котором состоят самые крупные интернет-компании. Например, LinkedIn вступил в этот клуб в 2021 году. Объём трафика в интернете и размеры хранилищ многих компаний растут в геометрической прогрессии: каждый год примерно вдвое.
▍ Рабочая нагрузка
БАК представляет собой ускоритель заряженных частиц на встречных пучках. Он исследует истоки Вселенной, воссоздавая условия, существовавшие сразу после Большого взрыва.
В круговом кольце длиной 26,7 км пучки протонов, состоящие из кварков и глюонов, разгоняются до 99,9999991% скорости света — и сталкиваются друг с другом внутри детекторов (на фото внизу), которые тщательно регистрируют результаты столкновений, то есть разлетающиеся во все стороны частицы всех видов, включая бозон Хиггса:
БАК сделал возможным столкновение протонов с суммарной энергией более 13 ТэВ, что стало мировым рекордом для ускорителей.
Частицы совершают оборот по тоннелю со скоростью 11 000 раз в секунду и сталкиваются около 600 млн раз в секунду. С детекторов и других сенсоров поступает огромный объём данных, который первично фильтруется и записывается в архив для последующего анализа. Эти данные ждут несколько лет в очереди на окончательную обработку:
Общей энергии столкновений 13 ТэВ недостаточно для воссоздания полноценного Большого взрыва и рождения новой Вселенной, но при столкновении протонов рождается множество субатомных частиц, которые позволяют физикам накопить данные о фундаментальных составляющих материи и сил, управляющих нашей Вселенной.
Некоторые из этих частиц существуют всего несколько зептосекунд (10−21
с), то есть несколько триллионных от миллиардной доли секунды. Поэтому способы обнаружения, измерения и визуализации триллионов частиц из каждого столкновения весьма нетривиальны.
Объём данных из системы Squid в экспериментах ATLAS и CMS, источник
В 2022 году на БАК завершилась вторая крупная модернизация для серии экспериментов, известных как Run 3. После трёхлетнего апгрейда более 100 тонн сверхтекучего гелия-4 снова потекли по трубам БАКа, охлаждая его до температуры −271 °С (для сравнения, в открытом космосе теплее: всего −270 °С), а протоны опять полетели через один из самых сложных и дорогих научных инструментов в мире.
Сразу после перезапуска БАК обновил рекорд максимальной энергии столкновений (13,6 ТэВ).
Возросшая энергия столкновений означает также и то, что с детекторов поступает значительно больше данных. Чтобы их хранить, инженерам пришлось искать новые решения. Проблема заключалась не только в объединении огромных мощностей, но и в возможности достаточно быстро передавать огромные объёмы данных в хранилище.
Хотя SSD более производительны, но они дороже HDD, а ведь ЦЕРН — это международная организация, которая финансируется из государственных бюджетов, поэтому вынуждена экономить.
Раньше в дата-центре преимущественно использовались серверы с 16-ядерными процессорами Xeon, 64−128 ГБ RAM, 24 дисками HDD по 6 ТБ (в сумме 144 ТБ) и 4 дисками SSD по 240 ГБ.
Но сейчас пришлось делать апгрейд.
В поиске решения руководители IT-подразделения ЦЕРН встречались с различными технологическими партнёрами, и в итоге остановили выбор на платформе хранения данных Western Digital. Файлохранилище JBOD (Just a Bunch of Drives) — это гибридная платформа хранения с серверами типа Ultrastar Data102 3000 Series.
Характеристики сервера Ultrastar Data102 3000 на 4U с максимальной начинкой:
- 102 HDD (SAS или SATA);
- 2,65 петабайта;
- 12 разъёмов SAS-4 по 24 Гбита/с;
- двухпортовый SAS или однопортовый SATA (бюджетный вариант);
- блоки питания, модули ввода/вывода и вентиляторы корпоративного класса с резервированием и горячей заменой.
Платформы хранения данных JBOD — рабочая лошадка многих крупных центров обработки данных, а ЦЕРН использует их уже более десяти лет. Не требующие особых затрат корпусы размером со стойку предназначены для обеспечения расширяемой ёмкости при минимальной сложности, поэтому они не являются очевидным очагом технологических инноваций. То есть здесь нет интересных технологий, обычно всё устроено довольно просто.
Однако в платформах хранения данных Ultrastar компания WD внедрила несколько новых решений для лучшей циркуляции воздуха внутри корпусов и снижения вращательных вибраций, в некоторых случаях более чем на 60%. Как сообщается в корпоративном блоге WD, даже когда все диски работают в напряжённом режиме, производительность сохраняется на высоком уровне. В результате получается более производительный JBOD, который к тому же потребляет меньше электроэнергии и меньше нагревается.
Некоторые из серверов JBOD установлены за пределами ЦОДа, в том числе рядом с местами столкновений протонов в БАКе.
На этом процесс не завершён. Сейчас ЦЕРН ведёт строительство нового дата-центра, чтобы расширить вычислительные возможности для следующего апгрейда коллайдера — Run 4, который по плану начнётся в 2029 году. Новый ЦОД расположен на французской стороне границы.
Инженеры ЦЕРН говорят, что «сегодня на рынке нет абсолютно ничего, что позволило бы передавать и хранить данные в предполагаемых объёмах», имея в виду требования Run 4. Аналогичные проблемы возникнут у инженеров сети радиотелескопов Square Kilometer Array (SKA), которая будет генерировать более 1 эксабайта в день.
Остаётся надеяться, что в ближайшие годы подходящее оборудование всё-таки появится.
Ещё во время Run 2 эксперименты CMS, ALICE, ATLAS и LHCb генерировали в совокупности 50 петабайт в год, а сейчас этот объём почти удвоился. Данные хранятся в максимально сжатом виде.
Кроме распределённой облачной операционной системы OpenStack, в ЦЕРН используют распределённую файловую систему CephFS и хранилища Ceph RADOS с блочными устройствами RADOS block devices (RBD). Также используются ленточные накопители и софт CASTOR/XRootD и объектные хранилища данных S3/Swift.
Более подробно о программном обеспечении, которое используется для хранения данных, можно почитать здесь.
Дата-центр ЦЕРН входит в мировую сеть научных суперкомпьютеров, которые объединены в единую сеть и способны работать над общими задачами (раньше она называлась EGEE). Например, в 2006 году по миру распространялся птичий грипп, шёл поиск лекарства против смертельного штамма H5N1. Для решения этой задачи потребовалась огромная вычислительная мощность EGEE, которая проанализировала 300 тыс. возможных компонентов лекарства. На карте показана сеть компьютерных центров и их активность в то время:
В 2010 году проект EGEE закрыли, а научная сеть стала частью инфраструктуры European Grid. Но сотрудничество между университетами всего мира продолжается, и в случае экстренной ситуации они могут наладить прямую взаимосвязь и совместно решать самые важные проблемы человечества. В конце концов, именно для этой цели в ЦЕРН изобрели Всемирную паутину (WWW) и сделали её открытой и свободной для использования всеми желающими.