Проект Greenland от Amazon: Подробный отчет о внутренней стратегии управления GPU
В середине 2024 года Amazon столкнулась с неожиданной проблемой: несмотря на то, что AWS управляет одним из крупнейших в мире парков ИИ-чипов — включая Nvidia H100 и собственные процессоры Trainium — розничное подразделение компании испытывало острую нехватку GPU. Более 160 проектов на базе ИИ были приостановлены из-за отсутствия вычислительных ресурсов, что привело к запуску внутреннего проекта Greenland — централизованной платформы, направленной на радикальное повышение эффективности использования GPU внутри компании.
Причины запуска проекта Greenland
Согласно Business Insider, внутренние ИИ-команды Amazon, особенно в розничном секторе, не имели доступа к достаточному количеству GPU, несмотря на то, что AWS масштабировался до более чем 250 000 эквивалентов H100 по всему миру. Проекты, связанные с компьютерным зрением, поиском и логистикой, задерживались из-за отсутствия планирования, простаивающих резервов и неэффективных моделей внутреннего распределения ресурсов.
В ответ Amazon запустила Project Greenland в июле 2024 года — систему оркестрации GPU с жесткими правилами распределения. Она внедрила дисциплинированное распределение ресурсов на основе окупаемости инвестиций (ROI), упорядочив ранее хаотичную систему управления оборудованием внутри компании.
Ключевые особенности и принципы
Project Greenland централизует управление GPU и отдает приоритет высокоэффективным ИИ-проектам, готовым к развёртыванию. Основные компоненты:
- Централизованный пул GPU: Все запросы проходят через единую систему с полной прозрачностью.
- Мониторинг использования: Показатели загрузки GPU отслеживаются почти в реальном времени.
- Изъятие и перераспределение: Недоиспользуемые GPU перераспределяются в пользу более ценных проектов.
- Приоритизация на основе ROI: Только проекты с высокой отдачей и готовностью к внедрению получают приоритетный доступ.
Amazon ввела восемь принципов управления GPU, требуя от команд обоснования своих запросов и демонстрации эффективности. Это стало значительным культурным сдвигом от прежнего подхода «кто успел, тот и получил» к более структурированной модели.
Контекст инфраструктуры
Параллельно с Greenland Amazon наращивает инвестиции в инфраструктуру:
- В 2025 году планируется закупка более 360 000 GPU Nvidia GB200.
- Внутренние бюджеты AWS увеличены до 5,7 млрд долларов, с фокусом на масштабируемость ИИ.
- Также внедряется Trainium2, хотя его широкомасштабные преимущества ожидаются только к концу 2025 года.
Несмотря на эти масштабные инвестиции, Project Greenland остается ключевым элементом, обеспечивающим оптимальное использование текущего ИИ-оборудования.
Результаты и влияние на бизнес
К первому кварталу 2025 года Amazon заявила, что проблема внутреннего дефицита GPU решена. Оптимизации, внедренные через Greenland, обеспечили:
- Дополнительную операционную прибыль в 2,5 млрд долларов
- Экономию переменных затрат на 670 млн долларов только в розничном секторе
По данным Business Insider, эти результаты были достигнуты не только за счет лучшего доступа к ресурсам, но и благодаря перераспределению простаивающих GPU и остановке низкоприоритетных проектов, блокировавших ресурсы.
Уроки для отрасли
Опыт Amazon с Project Greenland показывает, что даже у компаний с гигантской инфраструктурой могут возникнуть внутренние дефициты без централизованного управления ресурсами. Для компаний в сфере электронной коммерции, логистики или ИИ-стартапов Greenland предлагает эффективную модель для подражания.
Кроме того, когда GPU становятся избыточными, устаревшими или используются неэффективно, имеет смысл рассмотреть возможность восстановления ИТ-активов. Сервисы, такие как Sell Used Graphics Card от BuySellRam.com, помогают компаниям вернуть часть стоимости неиспользуемых или выведенных из эксплуатации графических процессоров. С учетом высокого спроса на ИИ-вычисления даже подержанные GPU могут иметь существенную ценность при правильной утилизации.
Заключение
Project Greenland превратил Amazon не только в поставщика облачных вычислений, но и в дисциплинированного внутреннего потребителя этих ресурсов. Этот проект стал наглядным примером эффективного управления ИИ-оборудованием, сочетающего инфраструктурные инвестиции, централизованную координацию и ориентацию на отдачу от вложений. С учетом продолжающегося роста спроса на ИИ во всех отраслях, стратегии типа Greenland и услуги по управлению жизненным циклом GPU будут становиться всё более актуальными.
- https://www.businessinsider.com/amazon-strategy-overcome-gpu-shortages-nvidia-2025-4?utm_source=chatgpt.com
- https://www.datacenterdynamics.com/en/news/amazons-retail-business-resolves-internal-gpu-capacity-shortage/
- https://seekingalpha.com/news/4433364-amazons-project-greenland-secures-ai-gpu-capacity-report
- Efficient GPU Management for AI Startups: Exploring All Viable Strategies
- GPU trade-in: Best places to sell a used graphics card.