May 7, 2025

Проект Greenland от Amazon: Подробный отчет о внутренней стратегии управления GPU

В середине 2024 года Amazon столкнулась с неожиданной проблемой: несмотря на то, что AWS управляет одним из крупнейших в мире парков ИИ-чипов — включая Nvidia H100 и собственные процессоры Trainium — розничное подразделение компании испытывало острую нехватку GPU. Более 160 проектов на базе ИИ были приостановлены из-за отсутствия вычислительных ресурсов, что привело к запуску внутреннего проекта Greenland — централизованной платформы, направленной на радикальное повышение эффективности использования GPU внутри компании.


Причины запуска проекта Greenland

Согласно Business Insider, внутренние ИИ-команды Amazon, особенно в розничном секторе, не имели доступа к достаточному количеству GPU, несмотря на то, что AWS масштабировался до более чем 250 000 эквивалентов H100 по всему миру. Проекты, связанные с компьютерным зрением, поиском и логистикой, задерживались из-за отсутствия планирования, простаивающих резервов и неэффективных моделей внутреннего распределения ресурсов.

В ответ Amazon запустила Project Greenland в июле 2024 года — систему оркестрации GPU с жесткими правилами распределения. Она внедрила дисциплинированное распределение ресурсов на основе окупаемости инвестиций (ROI), упорядочив ранее хаотичную систему управления оборудованием внутри компании.


Ключевые особенности и принципы

Project Greenland централизует управление GPU и отдает приоритет высокоэффективным ИИ-проектам, готовым к развёртыванию. Основные компоненты:

  • Централизованный пул GPU: Все запросы проходят через единую систему с полной прозрачностью.
  • Мониторинг использования: Показатели загрузки GPU отслеживаются почти в реальном времени.
  • Изъятие и перераспределение: Недоиспользуемые GPU перераспределяются в пользу более ценных проектов.
  • Приоритизация на основе ROI: Только проекты с высокой отдачей и готовностью к внедрению получают приоритетный доступ.

Amazon ввела восемь принципов управления GPU, требуя от команд обоснования своих запросов и демонстрации эффективности. Это стало значительным культурным сдвигом от прежнего подхода «кто успел, тот и получил» к более структурированной модели.


Контекст инфраструктуры

Параллельно с Greenland Amazon наращивает инвестиции в инфраструктуру:

  • В 2025 году планируется закупка более 360 000 GPU Nvidia GB200.
  • Внутренние бюджеты AWS увеличены до 5,7 млрд долларов, с фокусом на масштабируемость ИИ.
  • Также внедряется Trainium2, хотя его широкомасштабные преимущества ожидаются только к концу 2025 года.

Несмотря на эти масштабные инвестиции, Project Greenland остается ключевым элементом, обеспечивающим оптимальное использование текущего ИИ-оборудования.


Результаты и влияние на бизнес

К первому кварталу 2025 года Amazon заявила, что проблема внутреннего дефицита GPU решена. Оптимизации, внедренные через Greenland, обеспечили:

  • Дополнительную операционную прибыль в 2,5 млрд долларов
  • Экономию переменных затрат на 670 млн долларов только в розничном секторе

По данным Business Insider, эти результаты были достигнуты не только за счет лучшего доступа к ресурсам, но и благодаря перераспределению простаивающих GPU и остановке низкоприоритетных проектов, блокировавших ресурсы.


Уроки для отрасли

Опыт Amazon с Project Greenland показывает, что даже у компаний с гигантской инфраструктурой могут возникнуть внутренние дефициты без централизованного управления ресурсами. Для компаний в сфере электронной коммерции, логистики или ИИ-стартапов Greenland предлагает эффективную модель для подражания.

Кроме того, когда GPU становятся избыточными, устаревшими или используются неэффективно, имеет смысл рассмотреть возможность восстановления ИТ-активов. Сервисы, такие как Sell Used Graphics Card от BuySellRam.com, помогают компаниям вернуть часть стоимости неиспользуемых или выведенных из эксплуатации графических процессоров. С учетом высокого спроса на ИИ-вычисления даже подержанные GPU могут иметь существенную ценность при правильной утилизации.


Заключение

Project Greenland превратил Amazon не только в поставщика облачных вычислений, но и в дисциплинированного внутреннего потребителя этих ресурсов. Этот проект стал наглядным примером эффективного управления ИИ-оборудованием, сочетающего инфраструктурные инвестиции, централизованную координацию и ориентацию на отдачу от вложений. С учетом продолжающегося роста спроса на ИИ во всех отраслях, стратегии типа Greenland и услуги по управлению жизненным циклом GPU будут становиться всё более актуальными.

Reference:

  1. https://www.businessinsider.com/amazon-strategy-overcome-gpu-shortages-nvidia-2025-4?utm_source=chatgpt.com
  2. https://www.datacenterdynamics.com/en/news/amazons-retail-business-resolves-internal-gpu-capacity-shortage/
  3. https://seekingalpha.com/news/4433364-amazons-project-greenland-secures-ai-gpu-capacity-report
  4. Efficient GPU Management for AI Startups: Exploring All Viable Strategies
  5. GPU trade-in: Best places to sell a used graphics card.