February 15, 2023

Перевод речи в текст: сложность и обзор существующих сервисов

Автоматический перевод речи в текст — сложная задача. Устная речь не структурирована, для неё характерны случайности, неточности, пропуски слов, инверсия, слова-паразиты, оговорки. Иногда люди говорят так быстро, что проглатывают слоги или целые слова, а качество произношения влияет на качество распознавания.

Автоматический перевод из речи в текст лучше всего получится, если человек говорит в микрофон чётко, без акцента, с нормальным темпом. Также в записи не должно быть музыки, шумов, чужих разговоров.

Для перевода устной речи в текст используются модули расшифровки. Они содержат акустические модели, словари произношения и языковые модели.

Мы изучили несколько сервисов и рассказываем об их достоинствах и недостатках.

Бесплатные сервисы

Голосовой ввод в Google Docs

Доступен в браузере Google Chrome. Чтобы запустить опцию, во вкладке «Инструменты» выберите «Голосовой ввод». Установка отдельных плагинов не требуется.

Поддерживает множество языков, в том числе диалекты наиболее распространённых, например 13 вариантов английского языка, от американского и британского до кенийского английского.

Понимает команды «новая строка», «запятая», но не «тире», применяя вместо него дефис.

Бессовестно меняет тире на дефис

Качество распознавания нормальное, но нужно говорить правильно и чётко, перепроверяя знаки препинания.

Speechpad

Speechpad доступен в браузере Google Chrome, а также как приложение для iOS и Android. Можно установить Speechpad как расширение для браузера или утилиту для ПК. Поддерживает транскрибацию аудио- и видеозаписей. Сервис распознает речь на 15 языках, также доступны различные настройки. Результат распознавания — более-менее корректный текст на русском языке, ошибка в английском названии нашего канала и снова проблемы с тире.

Google Translate

Из полезных фич гугл-переводчика — наличие синхронного перевода. Это здорово помогает общаться иностранцами, если не знаете язык.

Ну что, в Стамбуле не пропадем

Однако с собственно преобразованием речи в текст не всё так гладко: сервис не понимает команды про знаки препинания, английское название канала Hey voice! не разобрал совсем. Зато поддерживает большое количество языков, как и голосовой ввод Гугла.

Dictation.io

Dictation.io — ещё один онлайн-сервис для перевода речи в текст. Тоже не распознал команды про точки и запятые (хотя якобы должен это уметь), результат диктовки можно легко обнулить по неосторожности. С транскрибацией аудио- и видеофайлов не работает. Поддерживает 30 языков.

Snatchbot.me

Сервис Snatchbot.me поддерживает 120 языков, а также умеет обрабатывать аудиофайлы. Распознал текст более-менее корректно, но без пунктуации. Умеет автоматически определять язык

Платные сервисы

В последнее время в сфере автоматического преобразования речи в текст заметен прогресс. Если раньше большинство решений было доступно для английского языка, сейчас есть возможность приобрести программы для транскрибации на русском.

Например группа компаний ЦРТ предлагает системы аудио- и видеопротоколирования «Нестор.BRIEF» и «Нестор.Правосудие». «Нестор.BRIEF» разработана для протоколирования совещаний и формирует их архив. «Нестор.Правосудие» не только делает протоколы судебных заседаний, но также ведёт видео- и аудиозапись и формирует из данных архив.

Также у ЦРТ есть такие разработки, как «Цезарь-Р» (комплект для преобразования речи в текст), VOCO (Windows-приложение для преобразования речи в текст) и Voice2Med (программа для голосового заполнения медицинской документации). Перевод речи в текст с помощью Voice2Med уже используется в московских поликлиниках и стационарах, экономя время врачей на заполнение различной документации.

***

Для применения в быту ускорить расшифровку можно с помощью любого из бесплатных сервисов, описанных выше. Полностью автоматизировать процесс не получится, всё равно будут мелкие ошибки и проблемы с пунктуацией. На наш взгляд, русский язык обрабатывается в Google Docs наиболее корректно. Однако обработка видео и аудио не предусмотрена. Правда, в интернете делятся лайфхаками: достаточно включить воспроизведение нужного файла поближе к микрофону.

Для более объемных задач, скорее всего, подойдёт Speechpad. Блокнот хорош и качеством распознавания речи, и благодаря другим функциям, позволяющим как настроить утилиту, так и использовать её в качестве плагина или приложения для разных ОС.

Что касается платных решений, они больше используются для специализированных сфер: в медицине, в судебной системе, на крупных предприятиях. Здесь уже есть требования к распознаванию терминологии, к безопасности хранения данных, да и объемы этих данных совсем другие.

Мария Зубарева, дизайнер разговорных продуктов KODE