Qwen 3: Революционная языковая модель нового поколения

Компания Alibaba Cloud недавно представила новое поколение своих языковых моделей — Qwen 3.

⁉️ Что такое Qwen 3?

Qwen 3 — модели представляют собой самые продвинутые и интеллектуальные системы компании на сегодняшний день. Флагманская модель Qwen3-235B-A22B демонстрирует результаты, сравнимые с DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.

⚡ Ключевые особенности Qwen 3

Разнообразие моделей

Qwen 3 доступен в различных вариантах:

- Плотные модели: 0.6B, 1.7B, 4B, 8B, 14B, 32B
- MoE-модели (Mixture-of-Experts): 30B-A3B (30 млрд параметров с 3 млрд активных), 235B-A22B (235 млрд параметров с 22 млрд активных)

Гибридный режим мышления

Одно из главных преимуществ Qwen 3 — возможность переключения между двумя режимами мышления:

- Режим мышления: модель тщательно рассуждает шаг за шагом перед выдачей ответа, что идеально для сложных задач, требующих глубокого мышления
- Режим без мышления: модель предоставляет быстрые, практически мгновенные ответы на простые вопросы

Режимы мышления Qwen 3 (https://qianwen-res.oss-accelerate.aliyuncs.com/assets/blog/qwen3/thinking_budget.png)

Многоязычная поддержка

Qwen 3 поддерживает впечатляющие 119 языков и диалектов, включая русский язык. Это открывает широкие возможности для международного применения этих моделей.

Контекстное окно

Модели обладают значительным контекстным окном:
- Маленькие модели (0.6B, 1.7B, 4B): 32K токенов
- Более крупные модели (8B, 14B, 32B): 128K токенов
- MoE-модели: 128K токенов

Улучшенные возможности агента

Модели Qwen 3 оптимизированы для программирования и агентных возможностей, показывая превосходные результаты в работе с инструментами и взаимодействии с окружением.

⚙️ Технические характеристики

🧠 Процесс обучения

Модели Qwen 3 обучались на впечатляющем объеме данных — около 36 триллионов токенов (вдвое больше, чем предыдущая версия Qwen 2.5), охватывающих 119 языков и диалектов. Этот массив данных включает не только материалы из интернета, но и документы формата PDF. Для улучшения качества данных использовались предыдущие версии Qwen.

Процесс обучения состоял из трех этапов:
1. Предобучение на более чем 30 триллионах токенов с контекстным окном 4K токенов

2. Дополнительное обучение на 5 триллионах токенов с повышенной долей данных по STEM, программированию и рассуждениям

3. Расширение контекстного окна до 32K токенов с использованием высококачественных данных с длинным контекстом

📈 Сравнение с другими моделями

Флагманская модель Qwen3-235B-A22B по сравнению с другими крупными языковыми моделями:

Сравнение производительности Qwen3-235B-A22B

Модель Qwen3-30B-A3B превосходит QwQ-32B, которая имеет в 10 раз больше активируемых параметров, а маленькая модель Qwen3-4B может соперничать с Qwen2.5-72B-Instruct:

Сравнение производительности Qwen3-30B-A3B

✏️ Где использовать Qwen 3?

Модели Qwen 3:
- Hugging Face
- ModelScope
- Kaggle

Для локального использования:
- Ollama команда ollama run qwen3:8b
- LMStudio
- llama.cpp
- MLX (для Apple Silicon)

Для развертывания в продакшене:
- SGLang
- vLLM

🐱GitHub репозиторий Qwen 3
🖥Официальный блог Qwen

⁉️ Что такое Qwen 3?

🧠 Процесс обучения

📈 Сравнение с другими моделями

✏️ Где использовать Qwen 3?

https://t.me/neurogen_news