March 2

Как запустить Huihui-Qwen3.5-35B-A3B-abliterated: полный гайд

Huihui-Qwen3.5-35B-A3B-abliterated — это модифицированная версия Qwen 3.5 на 35B параметров с ослабленной системой отказов. Модель тяжёлая (≈36B), поэтому для запуска нужно учитывать объём видеопамяти.

Ниже — все реальные способы запуска: от самого простого до продвинутого.

Способ 1. Запуск через Google Colab (самый простой)

Чтобы запустить модель через Google Colab, откройте ее страницу на Hugging Face и нажмите кнопку Use this model, затем выберите пункт Google Colab. Сервис автоматически создаст нужный шаблон, в котором весь необходимый код вставлен заранее — вручную ничего добавлять не нужно.

После открытия необходимо включить видеокарту. Для этого в верхнем меню выберите RuntimeChange runtime type, затем в поле Hardware accelerator установите GPU и сохраните изменения.

Далее вам останется просто нажать Run all (или запускать ячейки по порядку). Colab установит зависимости, скачает модель и запустит генерацию.

Если во время запуска появится ошибка нехватки памяти, значит текущего GPU недостаточно — в этом случае потребуется загрузка модели в 4-bit режиме или использование версии Colab с более мощной видеокартой.

Важно! бесплатный Colab может не потянуть 35B в полном виде.

Способ 2. Через Transformers (локально на своём ПК)

Этот вариант подходит, если у вас есть видеокарта NVIDIA. На странице модели нажмите Use this modelTransformers — там уже будет готовый пример кода. Его можно просто скопировать и запустить у себя.

Главный момент — объём видеопамяти:

  • Если у вас 70–80 ГБ VRAM — модель можно запускать в полном режиме.
  • Если памяти меньше — модель нужно запускать в сжатом формате (4-bit или 8-bit).
  • Если видеопамяти меньше 24 ГБ — модель, скорее всего, не запустится.

Если у вас нет видеокарты на 70–80 ГБ VRAM, модель нужно запускать в сжатом режиме. Проще всего — включить 4-bit загрузку (реже используют 8-bit).

Способ 3. Запуск через Ollama

Подходит, если вы не хотите работать с Python и писать код.

После установки Ollama достаточно выполнить команду (в PowerShell):

ollama run huihui_ai/qwen3.5-abliterated:35b

Модель автоматически скачается и запустится в формате чата.

Важно! требования к видеопамяти здесь такие же, как и при запуске через Transformers. Если видеокарты недостаточно мощная, модель в полном режиме не запустится — потребуется сжатая (квантизированная) версия.

Способ 4. Запуск через vLLM (если нужен API)

Этот способ подходит тем, кто хочет использовать модель не просто в чате, а подключить её к боту, сайту или приложению. vLLM запускает модель как сервер с API-доступом. После запуска к ней можно обращаться по HTTP-запросам — так же, как к OpenAI-совместимому API.

Чтобы запустить:

  1. Установите vLLM.
  2. Запустите модель как сервер, указав её название.

После этого модель будет работать в фоновом режиме, а вы сможете подключать к ней любые внешние сервисы.

Когда стоит использовать vLLM

  • если нужен API;
  • если важна высокая скорость генерации;
  • если модель будет обслуживать несколько запросов одновременно.

Требования к видеопамяти здесь такие же, как и при запуске через Transformers. vLLM не уменьшает потребление памяти — он просто оптимизирует скорость и работу как сервера.

Способ 5. Через llama.cpp (если видеопамяти мало)

Этот вариант подходит, если у вас нет видеокарты на 70–80 ГБ VRAM. В таком случае модель переводят в формат GGUF и запускают через llama.cpp в сжатом режиме (обычно Q4). Это значительно уменьшает потребление памяти и позволяет запустить 35B модель примерно на 24–32 ГБ VRAM.

Качество генерации немного ниже из-за сильного сжатия. Настройка сложнее, чем у Google Colab или Ollama. Это компромиссный вариант, когда полноценный запуск невозможен.