GLM-5 — новая флагманская открытая модель от Zhipu AI

Компания Zhipu AI (z.ai) представила GLM-5 — свою крупнейшую на сегодняшний день языковую модель с архитектурой Mixture-of-Experts (MoE). Это мощный шаг вперед в области open-weight моделей, особенно в нише программирования и автономных ИИ-агентов.

Архитектура и масштаб

GLM-5 содержит 744 млрд параметров, из которых 40 млрд активны при генерации каждого токена — заметный рост по сравнению с GLM-4.7 (~32 млрд активных). Такой подход повышает вычислительные требования на инференсе, но дает ощутимый прирост в качестве рассуждений и кодогенерации.

Модель поддерживает контекст до 200K токенов на входе и 128K на выходе, благодаря применению технологии DeepSeek Sparse Attention (DSA), которая оптимизирует использование памяти при работе с длинными последовательностями.

Только текст

На текущем этапе GLM-5 остается text-only моделью, сфокусированной на задачах программирования, логического вывода и агентного взаимодействия. Vision-версия, вероятно, появится позже — как это происходило с предыдущими поколениями (например, GLM-4.5 → GLM-4.5V).

В то же время конкуренты, такие как Kimi K2.5 и MiniMax M2.5, уже выпускаются с мультимодальной поддержкой из коробки.

Результаты бенчмарков

GLM-5 демонстрирует выдающиеся результаты в открытых тестах:

77.8% на SWE-bench Verified — лучший показатель среди всех open-weight моделей;
56.2 на Terminal-Bench 2.0;
92.7% на AIME 2026 I.

В агентных сценариях (BrowseComp, HLE) модель уверенно опережает не только другие открытые решения, но и ряд проприетарных систем.

Обучение на китайском железе — и совместимость с NVIDIA

Интересная особенность: GLM-5 была полностью обучена на чипах Huawei Ascend. Это объясняет, почему исходные веса выпущены в формате BF16 — китайские ускорители не поддерживают FP8 на аппаратном уровне. Тем не менее, команда Zhipu предоставила и FP8-версию, специально конвертированную для запуска на оборудовании NVIDIA.

Как запустить GLM-5 в облаке?

Для полноценного инференса GLM-5 требуется сервер с мощными видеокартами. Веса модели в BF16 занимают около 1.5 ТБ, что не помещается даже на 8 GPU. Однако в FP8 (~755 ГБ) модель легко размещается на восьми видеокартах NVIDIA H200 (по 140 ГБ VRAM каждая), оставляя достаточно памяти под KV-кэш и служебные структуры.

Ожидаемая скорость генерации — 40–50 токенов в секунду на один запрос, что сопоставимо с DeepSeek-R1 671B на аналогичном железе.

При INT4-квантизации GLM-5 можно запустить уже на четырех H200, что делает ее доступной для более широкого круга исследователей и компаний.

Модель поддерживается в популярных фреймворках: vLLM и SGLang, что упрощает интеграцию в существующие pipeline’ы.

Почему стоит арендовать облачный сервер для GLM-5?

Локальная сборка машины с 8×H200 — дорогостоящая и длительная задача. Гораздо эффективнее воспользоваться возможностью аренды облачного сервера с готовой инфраструктурой.

В immers.cloud вы можете:

Запустить виртуальный сервер с видеокартой H200 за считанные минуты;
Выбрать конфигурацию с 4 или 8 GPU — в зависимости от бюджета и требований;
Использовать предустановленные образы с CUDA, Docker и vLLM;
Платить только за фактическое время использования (посекундная тарификация).

Подробнее о модели GLM-5 и рекомендуемые конфигурации для инференса смотрите в нашем каталоге нейросетевых моделей.