NVIDIA GTC 2025: Новая эра AI-инференса

18 марта 2025 года в Сан-Хосе (США) компания NVIDIA провела конференцию GTC (GPU Technology Conference). В этом году мероприятие привлекло около 25 000 участников в офлайн-формате и еще 300 000 зрителей онлайн.

Генеральный директор NVIDIA Дженсен Хуанг открыл свое выступление словами: "Из-за стремительного развития AI-технологий масштаб GTC растет с каждым годом. В прошлом году это событие назвали 'Вудстоком AI-индустрии'. В этом году оно переросло в 'Суперкубок AI'".

Презентация Blackwell Ultra GPU — новой "ядерной бомбы" вычислительных мощностей

Главной сенсацией мероприятия стал анонс нового поколения AI-GPU для дата-центров — NVIDIA Blackwell Ultra GPU. Хотя в конце прошлого года ходили слухи о смене названия на B300, компания сохранила оригинальное наименование. По сравнению с предыдущим поколением B200, новый GPU демонстрирует прирост производительности на 50%, достигая 15P FLOPS (FP4). Также в нем используется передовая память HBM3E объемом 288 ГБ.

NVIDIA представила две интегрированные системы на основе Blackwell Ultra: Blackwell Ultra NVL72 и NVIDIA HGX Ultra NVL16. Первая объединяет 72 GPU и 36 процессоров Grace (ARM) в одном дата-центровом стойке, обеспечивая прирост производительности на 50% по сравнению с предшественниками. Вторая — серверная система с 8 GPU, оптимизированная для сложных AI-задач.

В отличие от A100 и H100, ориентированных на обучение моделей, Blackwell Ultra GPU нацелен на AI-инференс, а также обеспечивает высокую эффективность в обучении и мультимодальных задачах. Например, HGX B300 NVL16 ускоряет AI-инференс в 11 раз по сравнению с архитектурой Hopper.

AI-инференс: следующее направление масштабирования AI

После успешного проекта DeepSeek, который продемонстрировал эффективность AI-инференса с минимальными затратами вычислительных ресурсов, инвесторы начали задаваться вопросом: не приведет ли это к снижению спроса на мощные AI-GPU? Однако NVIDIA утверждает обратное: развитие AI-инференса только увеличит потребность в высокопроизводительных чипах.

По словам Хуанга, AI переходит в новую фазу, где основным драйвером станет Agentic AI — системы, способные к сложному рассуждению, планированию и автономному выполнению задач. Этот сдвиг ведет к экспоненциальному росту вычислительных мощностей, необходимых для AI-инференса.

Будущее: Rubin и Feynman GPU

Следующим шагом после Blackwell станет архитектура Rubin, запланированная на 2026–2027 годы. GPU Rubin обеспечит 50P FLOPS (FP4), а Rubin Ultra — 100P FLOPS, что в 3,3 раза превышает производительность Blackwell Ultra. Ожидается, что системы Vera Rubin NVL144 и Rubin Ultra NVL576 станут ключевыми решениями для AI-инфраструктуры будущего.

На 2028 год NVIDIA анонсировала новую архитектуру Feynman, названную в честь физика Ричарда Фейнмана.

Оптические сети, роботы и квантовые вычисления

NVIDIA также представила две новые кремниево-фотонные коммутаторные платформы: Spectrum-X (Ethernet) и Quantum-X (InfiniBand), созданные в партнерстве с TSMC, Coherent, Corning и другими технологическими гигантами. Они позволят масштабировать AI-дата-центры до миллионов GPU.

Кроме того, компания анонсировала робота GROOT N1, основанного на человекоподобной архитектуре. Визуально-языковая модель этого робота позволяет ему анализировать окружающую среду, понимать команды и выполнять сложные действия.

NVIDIA также объявила о создании исследовательского центра NVAQC для разработки квантовых вычислений. Хотя Дженсен Хуанг ранее заявлял, что практическое применение квантовых технологий займет десятилетия, новый центр направлен на преодоление ключевых технических барьеров.

Итоги

NVIDIA продолжает задавать темп развития AI-индустрии, представляя мощные решения для AI-инференса и закладывая фундамент для будущих поколений вычислительных платформ. По прогнозам компании, к 2028 году рынок дата-центров достигнет $1 трлн, что подтверждает неизменную роль NVIDIA как лидера в сфере AI-вычислений.

P.S.: При обновлении ваших GPU вы можете рассмотреть возможность продажи старых, чтобы сэкономить. Ознакомьтесь с эим ссылкой Sell GPU, чтобы узнать, как это работает.