November 19, 2023

Транскрибация, перевод и озвучка видео и аудио

Как смотреть видео на любом иностранном языке, не зная его?

Как за считанные секунды переводить свои собственные видеоролики на практически любой язык мира и завоевывать в социальных сетях новую аудиторию?

Как быстро превратить длинное голосовое сообщение в текст? А также лекцию, любимый подкаст и любые другие видео и аудиофайлы 😉

А что если с помощью ИИ-озвучки создать свою собственную аудиокнигу? Или озвучить что-то голосом известного человека для блога, да еще и с персонажем?

Это лишь несколько задач, которые ИИ-инструменты “щелкают как орешки”. Ты можешь сам решить, где такие помощники пригодятся - и в повседневных делах, и в рабочих.

Результат дня

Ты будешь владеть самыми эффективными нейросетями для перевода, транскрибации, озвучки и даже улучшения качества звука.

▶️ Время чтения и просмотра: ~ 45 минут

⏱ Время выполнения задания: ~ 20 минут



Темы на сегодня

  • Транскрибация видео и аудио с WisperJax
  • Перевод и озвучка видео с Dubformer.ai и Яндекс.Браузер
  • Озвучка и перевод аудио. Умные телеграм-боты
  • Как улучшить звук с помощью нейросетей

1. Wisper Jax

Преподаватель - Мария Размазина, руководитель экспертно-аналитического отдела Zeroсoder, действующий преподаватель, ученый и nocode-разработчик.

WhisperJax — это нейросеть, которая помогает транскрибировать аудио и видео в текст, при этом она знает множество языков, поэтому умеет не только транскрибировать, но и переводить.

🔗 https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

У WhisperJax есть три функции:

1) Запись аудио через микрофон.

Нужно нажать “Запись через микрофон”.

Если ты делаешь это первый раз, то браузер может попросить разрешение использовать микрофон.

После того, как записали все, что хотели, жмём “закончить” или “остановить”.

Также можно послушать, что мы записали. Здесь же доступно редактирование громкости.

Следующий блок после записи аудио - это Task - задание, что WhisperJax должен сделать с аудиозаписью:

  • транскрибировать, то есть перевести аудио в текст;
  • перевести (доступен перевод с разных языков, но только на английский!);
  • проставить временные метки, когда сказано какое слово.

После выбора задания (или заданий) нажимаем кнопку “Исполнить”.

Справа поле, где WhisperJax выполняет задание. С аудиозаписью длиной 13 секунд он справился за 4,8 секунды. Временные метки проставлены:

Чтобы перейти к следующей задаче, нужно нажать “Очистить”.

2) Транскрибация и перевод аудиофайла.

Чтобы дать задание поработать с аудиофайлом, надо либо нажать “Нажмите, чтобы загрузить”, либо перетащить файл на поле.

Если после транскрибации мы хотим скопировать текст, нажимаем на значок копирования:

💡 Лайфхак: если нужно транскрибировать очень большое аудио, то лучше поделить файл на несколько частей.

3) Трансрибация и перевод видео с YouTube.

Транскрибация видео с YouTube с помощью WhisperJax аналогична двум предыдущим, нужно только вставить ссылку на видео с площадки. Однако он сможет транскрибировать только тот ролик, который доступен для просмотра на YouTube для всех (то есть его может посмотреть любой желающий) или по ссылке (доступен только тем, у кого есть ссылка на ролик).

Если загруженный на YouTube видеоролик имеет ограниченный доступ (его могут видеть только автор и добавленные пользователи), то WhisperJax не сможет его перевести и будет выдавать ошибку.

💡 Лайфхак: если нужно транскрибировать видео, которого нет на YouTube, залей туда видео, сделай доступ по ссылке и вставь ссылку в WhisperJax. Так никто не увидит твой ролик на YouTube, а ты сможешь его транскрибировать.

2. Перевод видео на другие языки

Dubformer.ai

Внимание! Сейчас Dabformer дает только 5 бесплатных минут для перевода на одном аккаунте!

Если ты хочешь перевести видео длительностью более 5 минут, можно разбить его на две части и перевести по частям (соответственно, нужно будет создать 2 аккаунта Google для Dabformer чтобы получить 5 минут бесплатно 2 раза), а затем "склеить" в любом онлайн-сервисе или программе для монтажа, например, https://online-video-cutter.com/ru/merge-videos или https://www.capcut.com/.

Нейросеть Dabformer переводит и озвучивает видео.

🔗 https://app.dubformer.ai

В тестовом бесплатном периоде доступна обработка 5 минут видео.

Ссылка для входа: https://app.dubformer.ai, заходить нужно через Google-аккаунт, нажимаем “Continue with Google”. Рекомендуем заходить через режим Инкогнито, чтобы после того, как закончится бесплатный период, можно было создать новый аккаунт с новой почтой от Google и начать новый бесплатный период, таким образом пользуясь нейросетью бесплатно раз за разом.

После того, как мы попали в свой аккаунт, нужно написать любое имя, указать цель использования - выбираем “Personal use” , и поставить галочку, что согласны с условиями. Затем нажимаем “Create account”.

Для работы в Dubformer с аудио или видеофайлом необходимо выбрать один из способ его загрузки: вставить ссылку на YouTube, перетащить или же загрузить с компьютера, нажав “Choose file”.

После загрузки видео выбираем язык, на котором оно есть сейчас, и тот язык, на который хотим перевести.

Кстати, нейросеть автоматически распознает, сколько спикеров в видео, определяет их пол и подбирает максимально похожий голос из своей библиотеки голосов. Голос можно поменять при желании, после перевода.

Далее нужно определиться, хотим ли мы заменить только голос или еще и удалить фоновые шумы.

  • Voice Replacement - удаление изначальной аудиодорожки вместе с шумами и посторонними звуками и полная замена новой аудиодорожкой, на которой будет только голос спикера. Идеальный вариант, когда из, например, лекции в шумном месте хочется получить чистый звук и только голос говорящего.
  • Smart Voice-Over - нейросеть заменяет только голос человека, а посторонние шумы оставляет. Подходит, если, например, брали интервью в зоопарке, и нужно заменить голос, но сохранить звуки окружающей природы.
  • Voice-Over - это вариант, когда нужно оставить и оригинальную речь, и речь на том языке, на который перевели видео.

Установив настройки выше, жмем “Checkout”. Далее Dubformer показывает предупреждение о том, сколько с нашего баланса спишется минут. Нажимаем “Pay & translate”, чтобы нейросеть начала обработку видео. На самом деле мы ничего не платим, лишь списываются минуты с баланса беплатной версии (5 минут).

Ждем примерно 3 минуты. Когда файл обработался, мы видим статус “Completed” и теперь можем скачать сам видеофайл, а также доступно скачивание только аудио, видео или субтитров в различных форматах.

После обработки открывается переведенное видео и таймкоды с текстом слева.

💡 Текст, а затем и то, что говорит спикер, можно редактировать. Для этого нужно изменить текст в поле справа и нажать “Apply Changes”. Нейросеть снова обработает видео с учетом изменений.

Эта полезная функция может пригодиться, чтобы не только перевести видео на другой язык, но и изменить ошибки в речи спикера или что-то добавить или убрать.

Продолжаем работу с переводом видео и знакомимся с более простым вариантом перевода без загрузки в нейросеть, который идеально подходит для просмотра иностранных видео на русском языке.

Яндекс.Браузер

У Яндекс есть свои собственные нейросети, которые в том числе внедрены в Яндекс.Браузер.

🔗 https://browser.yandex.ru/

При открытии видео через Яндекс.Браузер появляется желтая рамка, предлагающая смотреть видео сразу на русском языке. Нам достаточно нажать кнопку “Включить”, и тогда нейросеть переводит это видео. Эта функция открывает перед нами огромные возможности для изучения зарубежных видеороликов.

Еще один способ включить перевод на русский - вот такое поле, которое появляется при наведении слева или сверху видео. Там же находятся дополнительные настройки (три точки), которые позволяют изменить язык, с которого идет перевод, если вдруг Яндекс ошибся при определении исходного языка, или включить “задвоенную” речь - и оригинальный звук, и перевод на русский..

Вот так нейросети стирают языковые границы. А теперь зададимся другим вопросом: как мне озвучить что-то, что есть пока только в виде текста и, например, создать аудиокнигу или озвучить свои видеоролики для соц сетей? Или наоборот, как превратить длинные голосовые сообщения в Telegram в текст c помощью искусственного интеллекта?

3. Озвучка и перевод аудио. Умные телеграм-боты

Для работы далее нам понадобится Telegram.

  1. Бот @my_voice_messages_bot. Обратите внимание на написание имени бота, потому что есть его аналоги, тогда как нам нужен оригинальный @my_voice_messages_bot.

🔗 Ссылка для запуска бота: https://t.me/my_voice_messages_bot

Жмем кнопку «Запустить» и видим сообщения от бота. В них бот говорит, что он может переводить текст аудиосообщений в текст, кстати, лучше и быстрее, чем Telegram Premium. Здесь же отображается язык, и его можно поменять, кликнув прямо на команду /lang.

Как использовать бота? Просто переслать ему голосовое сообщение или записать его, а он отдает текст. Кстати, можно добавить этого бота прямо в свой телеграм-чат, также он может распознавать голосовые сообщения из WhatsApp, видеокругляши, аудио-видеофайлы.

Также мы можем сменить язык снова. Эта ✅ галочка показывает, что у нас сейчас выбран исходный текст. Таким образом, доступно быстрое и точное распознавание голоса и краткий пересказ, абзацы с таймкодами, предложения ответа (и даже несколько вариантов ответа).

Есть дополнительные возможности, о которых можно ознакомиться через команду /help.

2. Бот от Сбербанка - @smartspeech_sber_bot - бот Salute.

🔗 Ссылка для запуска бота: https://t.me/smartspeech_sber_bot

Как он работает? Отправляем голосовое сообщение/видеосообщение/аудиофайл, добавляем бота в группу, он расшифровывает полученное.

Функционал в плане транскрибации очень похож на предыдущего бота, однако доступно всего 3 языка. Однако у Salute есть кое-что интересное - озвучка текста. Чтобы попробовать ее, нужно перейти на сайт https://developers.sber.ru/portal/products/smartspeech?attempt=1. Здесь мы увидим все возможности Salute - и синтез, и распознавание речи. Есть разные голоса, а получившийся аудиофайл можно скачать в формате WAV. Отлично подходит как для личных задач, так и создания голосовых помощников для бизнеса.

3. Бот с известными голосами, которые озвучивают игры, мультфильмы и так далее - @silero_voice_bot.

🔗 Ссылка для запуска бота: https://t.me/silero_voice_bot

Бот поддерживает только русский язык, поскольку это российские актеры озвучки.

Чтобы пользоваться ботом с бОльшими возможностями (например, озвучивать 400 символов вместо 150), нужно нажать “Подписаться”. Далее чтобы вызвать меню выбора голоса, жмем «Speaker».

Мы для примера выбрали персонаж, и есть возможность сделать как видеосообщение в кружочке, так и просто аудио.

Еще одна частая задачка, если у нас есть какое-либо видео или аудио - это “почистить” от посторонних звуков или просто улучшить звучание. Давайте разбираться!

4. Как улучшить звук с помощью нейросетей

  1. Простая нейронная сеть от Adobe - Adobe Podcast.

🔗 https://podcast.adobe.com/enhance

Загружаем свое аудио до 30 минут, и оно обрабатывается от фоновых шумов. В результате получается абсолютно чистое звучание как будто это студийная запись. Скачать полученный файл можно с помощью кнопки “Download”.

Если мы хотим обрабатывать, например, видеосообщение или что-то посложнее, то нам понадобится другая нейросеть.

2. Auphonic - она обрабатывает как аудио, так и видеофайлы. Бесплатное время - 2 часа, при этом длина одного файла не должна превышать 20 минут.

🔗 https://auphonic.com/, https://auphonic.com/accounts/login/?next=/engine/

Эта нейросеть идеально подходит для профессиональных студий звукозаписи, так как есть большое количество функций. Но мы будем рассматривать упрощенный вариант работы.

Мы создаем “new production”, далее выбираем файл, который надо обработать. Можем добавить интро и аутро, например, если мы создаем подкаст, то в самом начале и в конце может звучать музыка. Также есть возможность добавить автора, название трека, обложку.

Нейросеть может выровнять по звуку людей, которые разговаривают на записи кто-то тише, кто-то громче. Или в целом нормализация громкости всего ролика, а также доступно шумоподавление, удаление тишины (например, когда речь прерывистая).

Дополнительные материалы

Видео, которое использовала Мария для перевода и транскрибации: https://www.youtube.com/watch?v=i4eZOT6FYg0&ab_channel=TimHarrisVideoAI

Файлы Марии для урока про Auphonic:

Интеллектуальный выравниватель, примеры: https://auphonic.com/features/leveler

Снижение шума и реверберации, примеры: https://auphonic.com/features/denoise

Фильтрация и автоэквалайзер, примеры: https://auphonic.com/features/filtering

Многодорожечные алгоритмы, примеры: https://auphonic.com/features/multitrack

85.36 МБ

Результаты работ.zip

00:00

00:02

mute

max volume

previous

play

stop

next

repeat

shuffle

full screen