Qwen 3: Революционная языковая модель нового поколения
Компания Alibaba Cloud недавно представила новое поколение своих языковых моделей — Qwen 3.
⁉️ Что такое Qwen 3?
Qwen 3 — модели представляют собой самые продвинутые и интеллектуальные системы компании на сегодняшний день. Флагманская модель Qwen3-235B-A22B демонстрирует результаты, сравнимые с DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
Qwen 3 доступен в различных вариантах:
- Плотные модели: 0.6B, 1.7B, 4B, 8B, 14B, 32B
- MoE-модели (Mixture-of-Experts): 30B-A3B (30 млрд параметров с 3 млрд активных), 235B-A22B (235 млрд параметров с 22 млрд активных)
Одно из главных преимуществ Qwen 3 — возможность переключения между двумя режимами мышления:
- Режим мышления: модель тщательно рассуждает шаг за шагом перед выдачей ответа, что идеально для сложных задач, требующих глубокого мышления
- Режим без мышления: модель предоставляет быстрые, практически мгновенные ответы на простые вопросы
Режимы мышления Qwen 3 (https://qianwen-res.oss-accelerate.aliyuncs.com/assets/blog/qwen3/thinking_budget.png)
Qwen 3 поддерживает впечатляющие 119 языков и диалектов, включая русский язык. Это открывает широкие возможности для международного применения этих моделей.
Модели обладают значительным контекстным окном:
- Маленькие модели (0.6B, 1.7B, 4B): 32K токенов
- Более крупные модели (8B, 14B, 32B): 128K токенов
- MoE-модели: 128K токенов
Модели Qwen 3 оптимизированы для программирования и агентных возможностей, показывая превосходные результаты в работе с инструментами и взаимодействии с окружением.
🧠 Процесс обучения
Модели Qwen 3 обучались на впечатляющем объеме данных — около 36 триллионов токенов (вдвое больше, чем предыдущая версия Qwen 2.5), охватывающих 119 языков и диалектов. Этот массив данных включает не только материалы из интернета, но и документы формата PDF. Для улучшения качества данных использовались предыдущие версии Qwen.
Процесс обучения состоял из трех этапов:
1. Предобучение на более чем 30 триллионах токенов с контекстным окном 4K токенов
2. Дополнительное обучение на 5 триллионах токенов с повышенной долей данных по STEM, программированию и рассуждениям
3. Расширение контекстного окна до 32K токенов с использованием высококачественных данных с длинным контекстом
📈 Сравнение с другими моделями
Флагманская модель Qwen3-235B-A22B по сравнению с другими крупными языковыми моделями:
Модель Qwen3-30B-A3B превосходит QwQ-32B, которая имеет в 10 раз больше активируемых параметров, а маленькая модель Qwen3-4B может соперничать с Qwen2.5-72B-Instruct:
✏️ Где использовать Qwen 3?
Модели Qwen 3:
- Hugging Face
- ModelScope
- Kaggle
Для локального использования:
- Ollama команда ollama run qwen3:8b
- LMStudio
- llama.cpp
- MLX (для Apple Silicon)
Для развертывания в продакшене:
- SGLang
- vLLM
🐱GitHub репозиторий Qwen 3
🖥Официальный блог Qwen