Практическая разработка с Qwen3-Coder-Next

Эта статья посвящена использованию современных ИИ-моделей для написания и анализа кода, в частности — открытой модели Qwen3-Coder-Next.

Модель построена по архитектуре MoE: из общего числа 80 миллиардов параметров активно задействовано около 3 миллиардов, что обеспечивает высокую эффективность использования ресурсов. В основе лежит гибрид линейной модели (Gated DeltaNet) и трансформера, ориентированный на агентные задачи. По результатам бенчмарка SWE-Bench точность генерации кода сопоставима с DeepSeek V3.2, а скорость инференса достигает порядка 60 токенов в секунду.

Модель успешно работает в AWQ-квантизации INT4 даже на трех видеокартах RTX 4090. Для запуска можно использовать публичный эндпоинт или локальное развертывание. При работе через vLLM требуется версия не ниже 0.15.0, так как именно с неё добавлена поддержка Qwen3-Coder-Next.

Подробная инструкция по развертыванию модели в облаке доступна по ссылке.

Особый интерес представляет интеграция модели в среду разработки. Наиболее удобные варианты — расширения для VS Code, совместимые с OpenAI-совместимыми API.

Например, Cline подключается за несколько шагов: после установки расширения достаточно указать URL эндпоинта и ключ доступа — дополнительная настройка не требуется.

Среди поддерживаемых API-провайдеров есть как OpenAI-совместимые эндпоинты, так и реализации в формате Anthropic Messages API — последний доступен в свежих версиях Ollama. Это расширяет гибкость интеграции модели в разные инструменты разработки.

Особенность Cline — высокая автономность при работе в режиме кодинг-агента. После утверждения плана задачи он способен самостоятельно выполнять цепочки действий: создавать файлы, писать функции, добавлять тесты и запускать их — без запроса подтверждения на каждом шаге.

На простых задачах, таких как реализация классических алгоритмов на Python, модель демонстрирует качество, сопоставимое с ведущими проприетарными решениями.

На практике ключевым этапом при создании даже схематичного прототипа реального приложения становится не столько генерация кода, сколько корректное планирование и адаптация к уточнениям в техническом задании. В этом Qwen3-Coder-Next проявляет себя уверенно: его объяснения логичны, детализированы и ориентированы на конкретные технические требования.

Дополнительное удобство — возможность просмотра diff между текущей версией кода и предлагаемыми изменениями, а также запрос пояснений к каждому изменению прямо в интерфейсе редактора.

Для работы с расширением Codex в VS Code сначала необходимо задать две переменные среды:

OPENAI_API_KEY — для аутентификации,

OPENAI_BASE_URL — для указания адреса эндпоинта.

После этого можно запускать редактор командой code.

Важный нюанс: Codex работает только с API в формате OpenAI Responses, а не с классическим Completions. Это ограничивает совместимость с некоторыми открытыми моделями и инфраструктурными решениями, так как Completions остаётся де-факто стандартом для большинства open-source LLM.Чтобы обойти это ограничение, модель Qwen3-Coder-Next можно запустить через Ollama — начиная с последних версий, она поддерживает Responses API. Процесс развёртывания при этом остаётся простым и не требует сложной настройки.

ollama pull qwen3-coder-next

Поскольку расширение Codex распознаёт только ограниченный набор имён моделей из экосистемы OpenAI — например, gpt-5.2-codex — для совместимости требуется переименовать Qwen3-Coder-Next на стороне сервера.Для этого создаётся файл Modelfile со следующим содержимым:

FROM qwen3-coder-next:latest

Затем в терминале выполняется команда:

ollama create gpt-5.2-codex -f Modelfile

После этого модель станет доступна под именем gpt-5.2-codex:latest, что можно проверить по адресу http://ollama-host:11434/api/tags. Этого достаточно для корректной работы расширения Codex в VS Code.

Расширение Codex ориентировано на более осторожное взаимодействие с файловой системой: по умолчанию оно запрашивает подтверждение на каждое изменение, если пользователь не разрешил полную автономию в настройках.

Это делает его подходящим для сред, где важен контроль над изменениями кода. Интерфейс напоминает ChatGPT, что может быть удобно для тех, кто привык к такому формату общения с ИИ.

Оба инструмента — Cline и Codex — предлагают схожий функционал, но с разной степенью интерактивности и стилем представления. Это даёт разработчикам гибкость в выборе подхода в зависимости от задачи и предпочтений команды.

На фоне роста числа решений для AI-ассистированной разработки становится очевидно: открытые модели достигли уровня качества, достаточного для профессионального использования.

Qwen3-Coder-Next демонстрирует, что локальное или приватное развёртывание может обеспечить производительность, сравнимую с ведущими проприетарными аналогами.

Главное преимущество такого подхода — возможность использовать ИИ в корпоративной среде без передачи кода и данных во внешние облака, что снижает риски утечки интеллектуальной собственности и соответствует требованиям безопасности многих software-компаний.