Меняем голос с помощью ИИ в реальном времени

Обещанная инструкция

Всем салют, дорогие друзья!
Изменение голоса в реальном времени с помощью ИИ - это мощный инструмент для стримеров, блогеров и хакеров. Нейросети вроде RVC позволяют преобразовывать речь "на лету" в Discord, Zoom или OBS, делая её похожей на персонажа или другого человека. В этой статье мы разберем два проверенных способа: простой Voicemod для новичков и продвинутый w-okada/voice-changer для максимального качества.

Почему real-time voice changer полезен

Такие программы создают виртуальный микрофон: ваш реальный звук проходит через нейросеть и выходит уже изменённым. Задержка минимальна (0.1–0.5 сек на хорошем ПК), что идеально для живого общения или стримов.

Ключ к успеху: чистый входной звук, одинаковая частота 48 кГц и GPU (Nvidia предпочтительна).

Вариант 1: Voicemod — быстро и просто (для Windows/Mac)

Voicemod предлагает 200+ AI-голосов, soundboard и интеграцию с популярными приложениями. Бесплатная версия меняет эффекты ежедневно, Pro не имеет лимитов.

Шаг 1: Установка и первый запуск

Перейдите на voicemod.net, скачайте версию для вашей ОС.
Установите, запустите. Программа попросит выбрать реальный микрофон и наушники - следуйте подсказкам.
В окне "Microphone test" говорите в микро и смотрите на уровни. Если они зелёные, значит всё окей.

Шаг 2: Настройка виртуального микрофона

Voicemod автоматически создаст "Voicemod Virtual Audio Device (WDM)".
В Windows Sound Settings (правой кнопкой на иконке звука → Sounds → Recording) убедитесь, что виртуальный микрофон не отключён и уровень громкости 80–100%.

Шаг 3: Подключение к Discord/Zoom/OBS

Discord:

User Settings → Voice & Video → Input Device: "Microphone (Voicemod Virtual Audio Device (WDM))".
Input Volume: 100%, отключите Noise Suppression и Echo Cancellation.
Тестируйте в Voice Chat — голос меняется мгновенно.

Zoom:

Settings → Audio → Microphone: "Voicemod Virtual Audio Device".
Suppress background noise: Low или Off.

OBS Studio:

Добавьте Audio Input Capture → Device: "Voicemod Virtual Audio Device".
В Advanced Audio Properties назначьте на Mic/Aux.

Шаг 4: Выбор и тюнинг голоса

В главном окне Voicemod кликайте иконки (Robot, Demon, Anime Girl и т.д.).
Нажмите Preview (ушко) для теста. В Voicelab (Pro) миксуйте эффекты, меняйте pitch/formant.
Горячие клавиши: назначьте для быстрого переключения (F1–F8).

Шаг 5: Решение проблем

Эхо: отключите "Listen to this device" в Windows Sound для реального микрофона.
Тишина: перезапустите Voicemod/Discord как Admin.
Задержка: закройте фоновые apps, обновите драйверы аудио.

Вариант 2: w-okada/voice-changer (RVC) — open-source для профи, которым я пользуюсь.

Бесплатный GitHub-проект с моделями RVC/Beatrice. Качество выше Voicemod, но нужна настройка. Работает на CPU/GPU.

Шаг 1: Подготовка системы

Установите VB-CABLE (vb-audio.com/Cable) — виртуальный кабель для маршрутизации.

После установки: CABLE Input (output device), CABLE Output (input device).

Windows: установите Python 3.9+ и Git (опционально).

Шаг 2: Скачивание и запуск

GitHub: github.com/w-okada/voice-changer → Releases → Windows v2 (CUDA для Nvidia или DirectML).
Распакуйте ZIP, запустите start_http.bat (браузер откроет localhost:18889).
Если ошибка — проверьте GPU-драйверы или используйте CPU-версию.

Шаг 3: Настройка аудио-цепочки

В Windows Sound:

Recording → CABLE Output (default).
Playback → CABLE Input (default для вывода из voice-changer).

В клиенте voice-changer: Input Device = ваш микрофон, Output = CABLE Input.
Частота: 48000 Hz везде (Windows, Discord, client).

Шаг 4: Загрузка и применение модели

Discord: вступите в AI Hub (discord.gg/aihub) — канал #voice-models.
Скачайте .pth + .index (например, аниме-голоса или русские стримеры).
В клиенте: Models → Upload → выберите .pth/.index → UPLOAD.
Настройте: Pitch Shift (+/-12 для женского/мужского), Formant (для естественности), Chunk Size (меньше = меньше задержки).
Нажмите CONNECT — микрофон активен.

Шаг 5: Интеграция с приложениями

Аналогично Voicemod: в Discord/Zoom/OBS выберите "CABLE Output" как микрофон.
Для стримов: OBS захватывает с CABLE Output.

Шаг 6: Тонкая настройка и модели

Pass filter: max для чистоты.
Создать свою модель: используйте RVC WebUI (github.com/RVC-Project), но это отдельная тема.
Проблемы: лаги — уменьшите chunk, робот — подгоните pitch под ваш голос.

Сравнение инструментов

С Voicemod вы запуститесь за 5 минут, а w-okada даст более профессиональный результат. Лично я использую второй вариант.

➡️ Да, хочу ⬅️

Не открывается ссылка? Скопируй ее и войди через бесплатный онлайн-прокси (кликабельно)