July 28, 2025

WAN 2.2 что за зверь и почему о нем все говорят

WAN 2.2 - Новые модели для генерации видео от Alibaba. Всего было опубликовано 6 моделей, среди них t2v и i2v на 14B и 5B.

Hugging Face

Что нового в WAN 2.2 и чем она круче предыдущих версий?

Ключевое отличие WAN 2.2 от предшественницы, WAN 2.1, кроется в архитектуре. Новая модель использует технологию Mixture-of-Experts (MoE), которая уже отлично зарекомендовала себя в больших языковых моделях. Говоря простым языком, это позволяет модели быть значительно мощнее, не требуя при этом колоссальных вычислительных ресурсов.

"Фишки", которые дает новая архитектура:

  • Кинематографическое качество: Модель обучена на огромном количестве данных с детальной разметкой по свету, композиции, контрасту и цветовой палитре. Это позволяет создавать видео с очень точным контролем над эстетикой.
  • Сложная анимация и движение: По сравнению с WAN 2.1, новая версия обучалась на 65.6% большем количестве изображений и 83.2% большем количестве видео.Это значительно улучшило ее способность генерировать сложные и плавные движения.
  • Разные "конфиги" под разные задачи: WAN 2.2 вышла в нескольких версиях. Есть модели на 14 миллиардов параметров для генерации видео из текста (T2V) и из изображений (I2V), а также гибридная модель на 5 миллиардов параметров (TI2V), которая умеет и то, и другое. Что особенно приятно, 5-миллиардная модель может работать даже на потребительских видеокартах вроде RTX 4090, выдавая видео в разрешении 720p при 24 кадрах в секунду.
  • Двухэтапный денойзинг: В моделях на 14 миллиардов параметров используется интересный подход с двумя экспертами: один для высокого уровня "шума" на начальных этапах генерации (отвечает за общую композицию), а второй — для низкого уровня "шума" на финальных этапах (прорабатывает детали). Это позволяет добиться более чистой и детализированной картинки.

Где можно протестировать WAN 2.2?

Самый доступный способ пощупать модель — это ComfyUI, где она получила нативную поддержку с первого дня релиза. Вам понадобится обновить ComfyUI до последней версии, после чего вы сможете загрузить готовые шаблоны для работы с WAN 2.2.

ComfyUI Blog - вся информация по Wan2.2 в comfy + гайд по запуску

Также существуют онлайн-сервисы, которые интегрировали новую модель и предоставляют бесплатные кредиты для генерации.

UDP 30.07.2025
Comfy завезли оптимизацию для Wan 2.2

Как WAN 2.2 понимает русский язык?

Для обработки текстовых запросов WAN 2.2 использует текстовый энкодер umt5_xxl.Модели семейства T5, как правило, мультиязычны, что дает надежду на хорошее понимание русского.

Я провел несколько тестов и по идее работает неплохо

Промт 1: "Киберпанковый кот в скафандре, неоновые огни, детализированный"
(использовалась Wan2.2 Turbo)

В обоих случаях модель сгенерировала нормальные видео. Не было необходимости сначала переводить текст на английский.

Промт 2: "Ожесточенное сражение Халка и Тора посреди пустыни, гроза, сверкают молнии"
(использовалась Wan2.2 Plus)

Энкодер работает нормально, несмотря на то, что английский промпт выдает результат по интереснее, думаю дело не в языке промпта так как различия в видео чисто субъективные, основная идея передана безошибочно.

Все полезные ссылки для Wan 2.2

Основные репозитории и модели

GitHub репозитории:

  • Wan-Video/Wan2.2 - Официальный репозиторий Wan 2.2 с поддержкой text-to-video и image-to-video генерации в 720P разрешении при 24fps
  • Wan-Video - Основная организация Alibaba Cloud для крупномасштабных генеративных моделей

Hugging Face модели:

Официальные ресурсы

  • Wan AI Platform - Официальная AI творческая платформа от Alibaba

Руководства и туториалы

YouTube туториалы

Письменные руководства

Техническая поддержка

ComfyUI интеграция

© Neurogen News