GLM-5 — новая флагманская открытая модель от Zhipu AI
Компания Zhipu AI (z.ai) представила GLM-5 — свою крупнейшую на сегодняшний день языковую модель с архитектурой Mixture-of-Experts (MoE). Это мощный шаг вперед в области open-weight моделей, особенно в нише программирования и автономных ИИ-агентов.
Архитектура и масштаб
GLM-5 содержит 744 млрд параметров, из которых 40 млрд активны при генерации каждого токена — заметный рост по сравнению с GLM-4.7 (~32 млрд активных). Такой подход повышает вычислительные требования на инференсе, но дает ощутимый прирост в качестве рассуждений и кодогенерации.
Модель поддерживает контекст до 200K токенов на входе и 128K на выходе, благодаря применению технологии DeepSeek Sparse Attention (DSA), которая оптимизирует использование памяти при работе с длинными последовательностями.
Только текст
На текущем этапе GLM-5 остается text-only моделью, сфокусированной на задачах программирования, логического вывода и агентного взаимодействия. Vision-версия, вероятно, появится позже — как это происходило с предыдущими поколениями (например, GLM-4.5 → GLM-4.5V).
В то же время конкуренты, такие как Kimi K2.5 и MiniMax M2.5, уже выпускаются с мультимодальной поддержкой из коробки.
Результаты бенчмарков
GLM-5 демонстрирует выдающиеся результаты в открытых тестах:
- 77.8% на SWE-bench Verified — лучший показатель среди всех open-weight моделей;
- 56.2 на Terminal-Bench 2.0;
- 92.7% на AIME 2026 I.
В агентных сценариях (BrowseComp, HLE) модель уверенно опережает не только другие открытые решения, но и ряд проприетарных систем.
Обучение на китайском железе — и совместимость с NVIDIA
Интересная особенность: GLM-5 была полностью обучена на чипах Huawei Ascend. Это объясняет, почему исходные веса выпущены в формате BF16 — китайские ускорители не поддерживают FP8 на аппаратном уровне. Тем не менее, команда Zhipu предоставила и FP8-версию, специально конвертированную для запуска на оборудовании NVIDIA.
Как запустить GLM-5 в облаке?
Для полноценного инференса GLM-5 требуется сервер с мощными видеокартами. Веса модели в BF16 занимают около 1.5 ТБ, что не помещается даже на 8 GPU. Однако в FP8 (~755 ГБ) модель легко размещается на восьми видеокартах NVIDIA H200 (по 140 ГБ VRAM каждая), оставляя достаточно памяти под KV-кэш и служебные структуры.
Ожидаемая скорость генерации — 40–50 токенов в секунду на один запрос, что сопоставимо с DeepSeek-R1 671B на аналогичном железе.
При INT4-квантизации GLM-5 можно запустить уже на четырех H200, что делает ее доступной для более широкого круга исследователей и компаний.
Модель поддерживается в популярных фреймворках: vLLM и SGLang, что упрощает интеграцию в существующие pipeline’ы.
Почему стоит арендовать облачный сервер для GLM-5?
Локальная сборка машины с 8×H200 — дорогостоящая и длительная задача. Гораздо эффективнее воспользоваться возможностью аренды облачного сервера с готовой инфраструктурой.
В immers.cloud вы можете:
- Запустить виртуальный сервер с видеокартой H200 за считанные минуты;
- Выбрать конфигурацию с 4 или 8 GPU — в зависимости от бюджета и требований;
- Использовать предустановленные образы с CUDA, Docker и vLLM;
- Платить только за фактическое время использования (посекундная тарификация).
Подробнее о модели GLM-5 и рекомендуемые конфигурации для инференса смотрите в нашем каталоге нейросетевых моделей.