Как запустить Huihui-Qwen3.5-35B-A3B-abliterated: полный гайд
Huihui-Qwen3.5-35B-A3B-abliterated — это модифицированная версия Qwen 3.5 на 35B параметров с ослабленной системой отказов. Модель тяжёлая (≈36B), поэтому для запуска нужно учитывать объём видеопамяти.
Ниже — все реальные способы запуска: от самого простого до продвинутого.
Способ 1. Запуск через Google Colab (самый простой)
Чтобы запустить модель через Google Colab, откройте ее страницу на Hugging Face и нажмите кнопку Use this model, затем выберите пункт Google Colab. Сервис автоматически создаст нужный шаблон, в котором весь необходимый код вставлен заранее — вручную ничего добавлять не нужно.
После открытия необходимо включить видеокарту. Для этого в верхнем меню выберите Runtime → Change runtime type, затем в поле Hardware accelerator установите GPU и сохраните изменения.
Далее вам останется просто нажать Run all (или запускать ячейки по порядку). Colab установит зависимости, скачает модель и запустит генерацию.
Если во время запуска появится ошибка нехватки памяти, значит текущего GPU недостаточно — в этом случае потребуется загрузка модели в 4-bit режиме или использование версии Colab с более мощной видеокартой.
Важно! бесплатный Colab может не потянуть 35B в полном виде.
Способ 2. Через Transformers (локально на своём ПК)
Этот вариант подходит, если у вас есть видеокарта NVIDIA. На странице модели нажмите Use this model → Transformers — там уже будет готовый пример кода. Его можно просто скопировать и запустить у себя.
Главный момент — объём видеопамяти:
- Если у вас 70–80 ГБ VRAM — модель можно запускать в полном режиме.
- Если памяти меньше — модель нужно запускать в сжатом формате (4-bit или 8-bit).
- Если видеопамяти меньше 24 ГБ — модель, скорее всего, не запустится.
Если у вас нет видеокарты на 70–80 ГБ VRAM, модель нужно запускать в сжатом режиме. Проще всего — включить 4-bit загрузку (реже используют 8-bit).
Способ 3. Запуск через Ollama
Подходит, если вы не хотите работать с Python и писать код.
После установки Ollama достаточно выполнить команду (в PowerShell):
ollama run huihui_ai/qwen3.5-abliterated:35b
Модель автоматически скачается и запустится в формате чата.
Важно! требования к видеопамяти здесь такие же, как и при запуске через Transformers. Если видеокарты недостаточно мощная, модель в полном режиме не запустится — потребуется сжатая (квантизированная) версия.
Способ 4. Запуск через vLLM (если нужен API)
Этот способ подходит тем, кто хочет использовать модель не просто в чате, а подключить её к боту, сайту или приложению. vLLM запускает модель как сервер с API-доступом. После запуска к ней можно обращаться по HTTP-запросам — так же, как к OpenAI-совместимому API.
- Установите vLLM.
- Запустите модель как сервер, указав её название.
После этого модель будет работать в фоновом режиме, а вы сможете подключать к ней любые внешние сервисы.
Когда стоит использовать vLLM
- если нужен API;
- если важна высокая скорость генерации;
- если модель будет обслуживать несколько запросов одновременно.
Требования к видеопамяти здесь такие же, как и при запуске через Transformers. vLLM не уменьшает потребление памяти — он просто оптимизирует скорость и работу как сервера.
Способ 5. Через llama.cpp (если видеопамяти мало)
Этот вариант подходит, если у вас нет видеокарты на 70–80 ГБ VRAM. В таком случае модель переводят в формат GGUF и запускают через llama.cpp в сжатом режиме (обычно Q4). Это значительно уменьшает потребление памяти и позволяет запустить 35B модель примерно на 24–32 ГБ VRAM.
Качество генерации немного ниже из-за сильного сжатия. Настройка сложнее, чем у Google Colab или Ollama. Это компромиссный вариант, когда полноценный запуск невозможен.