Копируем голос любого человека в реальном времени- DeepFakeVoice

Dalle-3 . Промпты будут внизу под статьей.

Руководство для новичков

Приветствую друзья, коллеги, залетные!
Добро пожаловать в удивительно простой туториал, который открывает перед нами использование нейронки DeepFake Voice.

В этой статье, расскажем вам о том, как с помощью технологий можно сменить голос, скопировав любой другой !

Естественно только в благих целях и с чутким отношением к авторским правам.

Шаг за шагом мы пройдемся по процессу подготовки датасета, создания модели голоса, определения параметров конфигурации нейронной сети, а также разделения вокала и инструментала. Кроме того, мы представим вам наглядные примеры использования технологии DeepFake Voice."

Важно!

Данные представлены в том виде, в котором Вы в состоянии прочесть, повторить, понять и разобраться.

А это просто круто сгенерированное изображение граффити с голубем)

И я , как человек ответственный, но не желающий отвечать за чужие косяки, хочу сказать, что не несу никакой ответственности за использование вами технологии , в каких либо корыстных или противозаконных целях.

"И будьте любезны"

Итак. Железо.

Требования:

ОС: Windows 10/11
Intel ~G4560 или AMD ~ 3000G
Nvidia GTX 960/AMD RX 470 (тут могут быть косяки, но попробовать можно)
Оперативки 16 ГБ. Никаких подкачек из ssd .16 минимум .
16 гб - давно уже- совсем ничего

Подготовка модели данных

Если Вы планируете повторить голос любого человека, и это действительно могло бы впечатлить даже хозяина, необходимо подготовить датасет с 10-30 минутным примером звучания копируемого голоса. Для этого идеально подойдут аудиокниги, подкасты, обзоры и файлы локализации видеоигр. Сейчас разберёмся

А разбираться мы будем на примере коллег из ixbt , а именно, главного редактора портала IXBT. Games Виталия Казунова с его YouTube канала

1. Скачиваем видеоролик и открываем его в любом видеоредакторе.

😌 В смысле ты не знаешь, как скачать видео-ролик?…

Держи тогда такую ссылку: Удобный способ скачивать видео с YouTube

А редактор можно взять любой. А можно не бесить и взять такой, как в нашем примере - это Shotcut.

Анализ видео и подготовка голосового материала

В процессе просмотра видеофайла мы удостоверяемся, что он не содержит нежелательных шумов или посторонних голосов. Если такие присутствуют, мы вырезаем соответствующие участки и конвертируем их в формат wav или mp3.

3. После того, как мы получили желаемые голосовые файлы, мы создаем папку с названием Dataset в корневом каталоге любого диска и перемещаем в нее запись. В дальнейшем эта папка будет часто использоваться при работе с нейросетью.

Установка и обучение нейросети

Неужели ; Дождались по-теме; Ну ох%ть теперь;

После подготовки материалов для обучения модели нейронной сети мы переходим к установке нашего ПО

1. Загружаем портативную версию нейросети, которая не требует установки сторонних библиотек и, благодаря усилиям энтузиаста, переведена на русский язык.

Ссылка на загрузку нейросети.

2. Распаковываем архив куда надо, и запускаем файл "go-web.bat"
( просто кликнув по нему дважды)

Если установка прошла успешно, вас автоматически перенаправит на страницу панели управления нейросетью по адресу localhost:7897

В разделе "Тренировка" мы последовательно выполняем шаги, как показано на картинке ниже

Задаем название будущей голосовой модели (используя латиницу).

1. Указываем количество ядер CPU (обычно на 1-2 меньше максимального доступного числа ядер).

2. Запускаем обработку датасета (записей голоса для копирования).

3. Выбираем алгоритм копирования тона (рекомендуется использовать настройки, как показано на картинке).

4. Задаем настройки для сохранения частоты, максимального числа эпох (влияет на качество модели) и нагрузки на GPU.

5. Копируем индивидуальные особенности голоса человека.

6. Запускаем обучение голосовой модели.

Обратите внимание, что создание качественной голосовой модели может занять значительное время. Например, на системе с RTX 3060 Ti и Intel Core 12400F, обучение с датасетом длиной 15-20 минут и 500 эпох занимает примерно 3-4 часа. Вы можете отслеживать текущий прогресс обучения вашей голосовой модели в консоли. Наберетесь терпения !

Пора товарищи. Настало время

Теперь перейдем к применению этой модели.

Использование голосовой модели

Существует множество способов использования чужого голоса: от шутливых поздравлений имениннику до создания полноценной озвучки. Рассмотрим подробнее несколько вариантов применения технологии DeepFake Voice.

Музыкальное произведение

Самый простой способ использования чужого голоса - заставить его спеть известную музыкальную композицию.

Допустим, мы предпочли Виталия Казунова "Ведьмаку" И решили ему заплатить чеканной монетой…))

1. Находим в интернете выбранную музыкальную композицию в формате mp3/wav или конвертируем ее сами. Помещаем файл в любую удобную папку, избегая использования кириллицы в пути или названии файла.

2. Загружаем бесплатную программу для разделения вокала (голоса) от инструментальной части (музыкальных инструментов).

Ссылку на программу для разделения вокала от инструментала я оставлю в ваших мечтах.

Ладно- ладно, че вот вы сразу .
Держите ссылку

Выбираем аудиотрек.

(Ахах , аудиотрек🤣 .
Слово так слух режет; но менять я его конечно же не буду)

1. Определяем папку, в которую будут распакованы файлы вокала и инструментала.

2. Устанавливаем настройки, как показано на скриншоте выше, и нажимаем кнопку "Start".

В результате мы должны получить два отдельных музыкальных файла. Переносим файл с вокалом оригинальной музыки в новую папку Vokal."

3. В панели нейронной сети переходим в раздел «Обработка модели».

Выбираем обученную голосовую модель.

Обновляем список (Если не видно модели).
Указываем путь до папки Vokal, содержащую файл записанного голоса на замену.
Выбираем файл модели голосовых черт.
Запускаем замену голоса.
Скачиваем обработанный файл

Сводим полученную дорожку изменённого вокала со старым инструменталом с помощью видеоредактора.

Наслаждаемся результатом.

Замена голоса в реальном времени

Заменим свой голос, передаваемый напрямую через микрофон в режиме реального времени. Такой инструмент подойдёт для онлайн игр, или сетевых мессенджеров по типу Discord и Skype.

1. Скачиваем бесплатную утилиту для подмены голоса в режиме реального времени.

2. Скачиваем и устанавливаем драйвер ретранслятора звука Virtual Audio Cable (VAC) или его аналог Virtual Cable.
У некоторых пользователей одна из двух программ может не работать.

Если всё в порядке, то после установки ПО и перезагрузки ПК в звуковом микшере Windows появится новое звуковое устройство.

3. Запускаем программу для подмены голоса через двойной клик по start_https.bat (Может не работать). В дальнейшем достаточно будет запускать ПО через MMVCServerSIO.exe.

Выбираем устройство ввода звука (микрофон).
Выбираем виртуальный микрофон, добавленный Virtual Audio Cable (VAC) или его аналогом Virtual Cable.
Выставляем оптимальные настройки выбора алгоритма обработки голоса, как на картинке выше.
Добавляем профиль обученной голосовой модели.
Настраиваем громкость, тон голоса, повторение тембра. (Услышать свой изменённый голос можно, выставив устройством вывода колонки/наушники).
Выбираем виртуальный микрофон в игре или ПО и жмём Start.

Наслаждаемся результатом.

Получилось весьма натурально.

Заключение

Нейронные сети — это всего лишь инструмент, использование которого зависит от человека, а человек — существо наказуемое. Уважайте свободу, используйте только проверенное ПО и ни в коем случае не позволяйте компаниям диктовать вам свои условия.

Не. Ну это же не условие. Это факт )*

Инструменты из статьи :

https://github.com/Anjok07/ultimatevocalremovergui/releases

https://vb-audio.com/Cable/

https://vac.muzychenko.net/en/

Image generated by Dalle-3

Prompts to all image create:

For beginners guide to the most common ways to use deep voice for copying a any voice - this is the most popular theme and this is image to first page w the new post in the popular journal about modern technologies , modern Remark media style
Pinup style poster with illustration about the: “copying a any voice “- this is the most popular theme and this is image to first page w the new post in the popular journal about modern technologies , ultra detailed applications, professional design techniques, modern Remark media style in cinematic style

based on this page:

https://www.ixbt.com/live/sw/kopiruem-chuzhoy-golos-v-dva-klika.html