Инструкция по использованию сайта Elevanlabs
1 Сначала пользователю нужно зарегистрироваться на сайте это можно сделать с помощью гугл аккаунта .
2 Вы можете начинать работу на сайте при входе нас встречает вот такая картинка
это раздел страницы под названием "Speech" есть еще 4 таких разделов
В разделе "Speech" мы работаем с готовыми моделями (голосами) . У нас есть два выбора работы с "Speech" первое это "Text to Speech", второе Speech to Speech"
В целом принцип работы "Text to Speech" мы передаем моделью текст он ее генерирует и выдает нам аудио результат. Здесь есть настройка модели
У нас их 4 по типу Мултиязычности : это Eleven Multilingua v2 , Eleven Multilingua v1 , Eleven English v1 , Eleven Tyrbo v2. Их разница между собой это интонации и задержки .
Можете послушать разницу Eleven Multilingua v2 и Eleven Turbo v2 :https://drive.google.com/file/d/1lD39eqVvkSwAxLT1cFmbEW0aZulE-pj6/view?usp=drive_link , https://drive.google.com/file/d/1DUyeGwtkohOaxsjnBBahYfAzt1Q0R4Vd/view?usp=drive_link
Следующее это выбор модели которые доступны нам данное время
Последний пункт настройка голоса есть такие конфигурации : Стабильность , Ясность + Сходство , Преувеличение стиля , Усиление динамика
Все эти параметры по разному влияет на модель. Я рекомендую выбрать по стандарту так как это оптимальный вариант большинство моделей . Например если вы до конца поднимите стабильность голос будет монотонным
Speaker bost должен оставаться включенным он влияет на динамичность и синтезирует голос .
И главное вы пишете текст сюда , затем нажмите "Generate":
Модель будет соблюдать правило чтения :точки , запятые , и знаки препинания .
Подробнее о "Speech to spech" те же самые настройка но здесь модель будет генерировать с голоса а не с текста . Плюс этого раздела с преведущим в том что здесь присутствует эмоциональные качество . Если придти к минусам некоторые слова поглощается
3 Следующий раздел после Speech это Voices :
Здесь создаются модели к которым можно дать разные характеристики
Здесь у на 4 вида создание моделей . 1 Voice Design вы даете характеристики модели такие как возраст пол акцент и уровень акцента.
2 Instant voice cloning здесь вы даете аудио запись спикера (лучше несколько записей макс 30 с) модель клонирует этот голос. дополнительно можете описать этого человека например как он работает журналистом и у него американский акцент, у него храпливой голос
3 Voice library здесь готовые голоса моделей которые создали другие пользователи . Самые популярные и голоса знаменитости , если ваш созданный голос будет популярным он будет стоят в этом разделе
Каждом тарифном плане есть своя привилегия если вы только начали изучать этот сайт рекомендую выбрать тариф Starter .Остальных дорогих тарифах звук будет лучше и будет больше лимитов для символов использование
Используя эти данные вы можете соединить этот инструмент с другими такими как chatgpt и т.д
Можете использовать на разных языках программирования в своем проекте