March 13

Урок 3.1.

Модуль 3. Нейросети работающие с аудиозаписями и музыкой

Урок 1. Озвучивание текста

На этом уроке мы погрузимся в удивительный мир алгоритмов, которые способны озвучивать тексты.

Все нейросети работают по одинаковому принципу, поэтому во всех углубляться не будем.

В некоторых встречаются дополнительные настройки эмоциональной окраски речи.

Voiser

https://voiser.net/en

Эта нейросеть поможет нам сгенерировать текст в речь и речь в текст. Рассмотрим ее интерфейс.

Принцип работы прост: набираем нужный текст, выбираем язык? понравившийся нам голос и генерируем аудиозапись.

Voicemaker

Сервис с очень качественной озвучкой текста на основе нейросетей. Большой выбор доступных языков и голосов.

На некоторых языках возможно задать различный эмоциональный окрас речи: злой, счастливый, дружелюбный, шепот и т.д.

Возможности:

  • широкий выбор настроек голоса с помощью фильтров;
  • поддерживает до 130 языков в зависимости от тарифа;
  • опция тонкой настройки – например, можно выделять время и дату;
  • есть ограничения по длине генерируемого текста – в бесплатном тарифе не более 250 символов, в платных – до 10000 символов;
  • правильная расстановка ударений даже в русском тексте;
  • возможность установки акцента.

В бесплатном тарифе конвертирует не более 250 символов. Стоимость платных тарифов – от 5 до 20 долларов, количество знаков в месяц – от 200 тысяч до 1 млн. Кроме того, в премиальном и бизнес-тарифе увеличено количество голосов и языков, есть возможность коммерческого использования, например, озвучки видео на YouTube, выделяется до 10 ГБ для сохранения результатов в облаке.

VoxWorker

https://voxworker.com/ru

Можно озвучивать до 10 тысяч символов в сутки бесплатно стандартным голосом или выбрать платный тариф. Стоимость озвучки зависит от используемого голоса и составляет в среднем 4 кредита за 1000 символов за премиум голос для озвучки (1 кредит равен одному Российскому рублю).

После регистрации на баланс зачисляется 6 кредитов.

ZVUKOGRAM

https://zvukogram.com/

Интерфейс, не отличается от прошлый нейросетей. Так же, пишем текст, выбираем язык, понравившийся нам голос, можно скорректировать высоту тембра, скорость чтения и генерируем аудиозапись.

Озвучивает любой текст в речь с помощью нейросетей. Есть обычные голоса и премиальные с пометкой *pro.

Также на сайте представлена база звуковых эффектов для монтажа – это структурированная по категориям коллекция звуков, которые можно использовать в своих креативах.

Robivox

https://robivox.ru/

Сервис для озвучки текста на 8 языках: русский, английский, турецкий, испанский и другие. Голоса созданы искусственным интеллектом на основе реальной речи диктора. Всего доступно 9 голосов. Бесплатно можно озвучивать текст до 100 символов.

За 100 рублей можно озвучить около 100 минут обычным голосом и 20 минут голосом PRO. После регистрации начисляют 5 бонусных рублей.

SteosVoice Bot. (Телеграм бот)

Этот бот позволяет легко и просто создавать аудио файлы на английском и русском языках, используя мощную технологию синтеза речи нашей платформы. Но фишек больше, чем просто синтез:

  • 5000 символов бесплатно каждый день: бот будет являться первой точкой входа в наш сервис, которая позволит оценить качество синтезирования, поработать с разными голосами и пользоваться сервисом бесплатно, если у вас небольшие потребности;
  • удобный выбор голоса через Telegram Web App: голоса структурированы по категориям, есть сортировка, можно сразу прослушать пример звучания голоса;
  • мультиязычные голоса: не столько фишка бота, сколько фишка нашей технологии, о которой я рассказывал здесь (русские голоса говорят по-английски и наоборот);
  • создание гифок со звуком: вы можете отправлять боту гифки и накладывать на них ваши реплики (если гифка вертикальная или квадратная, то бот сделает из неё кружок, если горизонтальная – оставит как есть);
  • привязка бота к платформе по токену: если вы приобрели платный тариф на платформе, но вам удобно пользоваться ботом, то вы можете подключить его к своему аккаунту и бот будет расходовать основной баланс платформы (инструкция по привязке находится в самом боте);
  • настройка ударений через «+»: просто поставьте + перед ударной гласной и ударение поменяется;
  • голоса из игр: мы решили начать добавлять на платформу голоса любимых всеми персонажей видеоигр и будем наращивать темпы;
  • покупка дополнительных символов сразу в боте: если не хочется регистрироваться на платформе, но нужен больший объём;
  • новые фичи на подходе: бот будет первым получать экспериментальные обновления перед их внедрением в саму платформу.

Как использовать SteosVoice Bot?

Открываем главную страницу бота.

  1. Выбираем язык работы бота

2. Выбираем режим работы. В нашем случае это будет “Изменить голос для синтезирования.

Выбираем голос.

Я решил выбрать: Геральд из Ривии

Я решил взять цитату Геральда:

— Дикие собаки опаснее волков. Потому что волки охотятся, чтобы утолить голод… А дикие собаки убивают для забавы.

— Совсем как люди.

Отправляем и получаем результат, скачиванием.

Speechactors

https://speechactors.com/

Переходим на сайт, проходим регистрацию и изучаем интерфейс нейронной сети.

Нажимаем Dashboard и нам открывается окно для работы. Действуем как обычно, пишем текст, выбираем язык и голос.

Универсальное решение для озвучивания текста на 129 языках. Доступно 300+ голосов ИИ. Есть возможность использовать голосовые эмоции, чтобы сделать речь естественной и привлекательной.

После регистрации в сервисе начисляется 2 000 бесплатных символов. Минимальная цена: $14 за 200 000 символов.

AI от Apihost

Простой сервис для озвучки текста на русский, английский, украинский, турецкий и другие языки. В каждой версии есть определённое количество языков и голосов. В настройках можно указать высоту голоса, скорость и длину паузы.

В бесплатной версии доступно несколько голосов. Стоимость платных тарифов начинается от 0,6 рублей за 1 000 символов. Итоговая цена зависит от версии синтезатора.

texttospeech.ru

https://texttospeech.ru/

  • более 60 виртуальных голосов, в том числе известных персонажей, например Деда Мороза, Ленина и др.;
  • возможность настройки высоты, скорости, громкости, частоты и других параметров речи;
  • инструменты для решения креативных задач – создания презентации, озвучки детских сказок;
  • множество встроенных голосов, в том числе на русском языке;
  • возможность начать работу без регистрации;
  • ограниченный функционал бесплатной версии.

Сервис достаточно простой, но обладает ограниченным количеством функций. Например, здесь нельзя озвучить текст на английском по фото – текст необходимо вводить в поле вручную или вставлять, предварительно скопировав. В бесплатном тарифе одна озвучка ограничена 5000 символами. В платных пакетах стоимость 1000 символов составляет минимально 1 рубль, максимально 7 руб. Плата удерживается по факту использования символов и в зависимости от выбранного типа голоса.

Домашнее задание:

  1. Выберите 2 нейросети, которые мы разобрали в этом уроке.
  2. Сгенерируйте через ChatGPT 2 разных текста на любую тему (реклама, пост для соц. сети, сценарий для ролика и тд)
  3. И с помощью выбранных вами нейросетей, изученных сегодня, переделайте готовые тексты в аудио формат.