В этом гайде я покажу, как развернуть и запустить модель распознавания речи Qwen3‑ASR через пакет mlx-qwen3-asr на macOS с M-чипом. Решение позволяет транскрибировать аудио из видеофайлов с поддержкой русского языка и сохранять результат в разных форматах: SRT, VTT, TXT, JSON.

Что такое mlx-qwen3-asr?

mlx-qwen3-asr - это Python‑пакет, предоставляющий удобный интерфейс к модели Qwen3‑ASR‑1.7B от Alibaba Cloud, оптимизированной для работы на чипах Apple Silicon через фреймворк MLX. Модель поддерживает несколько языков, включая наш родной русский, и позволяет получать транскрипцию с тайм‑кодами.

Требования

macOS
Установленный Python 3.11
Руки
Свободное место на диске (модель ~3 ГБ)

Установка и настройка

Подготовка директории проекта

Создайте отдельную папку для проекта и перейдите в неё, у меня будет так:

mkdir -p ~/Documents/ai/asr
cd ~/Documents/ai/asr

Создание виртуального окружения

python3.11 -m venv venv

Активация окружения

Активируйте виртуальное окружение:

source venv/bin/activate

Обновление pip и установка пакета

Обновите менеджер пакетов и установите mlx-qwen3-asr:

pip install --upgrade pip
pip install mlx-qwen3-asr

Установка может занять несколько минут — загружаются зависимости и модель.

Создание скрипта автоматизации

Чтобы не вводить команды вручную каждый раз, создадим shell‑скрипт с небольшим интерактивным интерфейсом.

Создайте файл скрипта

Создадим скрипт в любимом текстовом редакторе:

vim asr_process.sh

Вставьте этот код
Укажите настройку VENV_BIN=, где будет путь к созданной вами папке.
Сохраняем файл
Делаем скрипт исполняемым

chmod +x asr_process.sh

Отправляем файл на распознавание

Запускаем скрипт

./asr_process.sh

откроет диалоговое окно для выбора файла
потом скрипт предложит выбрать формат вывода
позволит указать папку для сохранения
запустится распознавание и покажет прогресс (при первом запуске модель скачается)