Qwen3 ASR на macOS
В этом гайде я покажу, как развернуть и запустить модель распознавания речи Qwen3‑ASR через пакет mlx-qwen3-asr на macOS с M-чипом. Решение позволяет транскрибировать аудио из видеофайлов с поддержкой русского языка и сохранять результат в разных форматах: SRT, VTT, TXT, JSON.
Что такое mlx-qwen3-asr?
mlx-qwen3-asr - это Python‑пакет, предоставляющий удобный интерфейс к модели Qwen3‑ASR‑1.7B от Alibaba Cloud, оптимизированной для работы на чипах Apple Silicon через фреймворк MLX. Модель поддерживает несколько языков, включая наш родной русский, и позволяет получать транскрипцию с тайм‑кодами.
Требования
Установка и настройка
Подготовка директории проекта
Создайте отдельную папку для проекта и перейдите в неё, у меня будет так:
mkdir -p ~/Documents/ai/asr cd ~/Documents/ai/asr
Создание виртуального окружения
python3.11 -m venv venv
Активация окружения
Активируйте виртуальное окружение:
source venv/bin/activate
Обновление pip и установка пакета
Обновите менеджер пакетов и установите mlx-qwen3-asr:
pip install --upgrade pip pip install mlx-qwen3-asr
Установка может занять несколько минут — загружаются зависимости и модель.
Создание скрипта автоматизации
Чтобы не вводить команды вручную каждый раз, создадим shell‑скрипт с небольшим интерактивным интерфейсом.
Создайте файл скрипта
vim asr_process.sh
- Вставьте этот код
- Укажите настройку
VENV_BIN=, где будет путь к созданной вами папке. - Сохраняем файл
- Делаем скрипт исполняемым
chmod +x asr_process.sh
Отправляем файл на распознавание
./asr_process.sh