June 14, 2020

голосовые > текст?

На прошлой неделе ВК запустили фичу распознавания голосовых сообщений. А три года назад мы с Олесей Чернявской придумали и задизайнили её! Как оказалось позже, мы были далеко не первыми, кто это сделал, но всё равно классно осознавать, что ты умеешь находить интересные рабочие решения.

Распознавание речи помогло бы и людям, которые любят записывать голосовухи (их бы больше не ненавидели), и тем, кто их получает. ВК частично рассказали о конкретных проблемах, которые оно решает, но я расскажу о наших находках в далёком 2017 году.

  • Чтение быстрее прослушивания голоса — но речь часто быстрее и удобнее, чем набор текста, особенно на мобильных устройствах. Мы говорим 100 слов в минуту, а читаем 160. Печать текста, особенно на смартфоне — самое медленное звено: примерно 40 слов в минуту. Если полностью убрать его из коммуникации — общение становится гораздо быстрее без значимых потерь.
  • Из пользовательских интервью мы выяснили, что часто у людей нет возможности прослушать голосовое сообщение, но есть возможность прочитать. Особенно если под рукой нет наушников.
  • Поиск: в голосовых сообщениях сложно найти что-либо. По голосовым сообщениям нельзя “пробежать глазами” — нужно слушать всё целиком, чтобы вспомнить важный кусочек информации. С переводом речи в текст при необходимости можно использовать для этого обычный поиск по сообщениям.

Распознавание голосовых сообщений является идеальным случаем для использования искусственного интеллекта: низкая цена ошибки и высокая вероятность безошибочной работы. ИИ может ошибиться в распознавании, и это не страшно, потому что даже если потерялся смысл, в крайнем случае можно просто прослушать голосовое сообщение. А благодаря работе множества ученых, ИИ постоянно улучшается, что уменьшает шанс ошибок.


Оригинал: https://t.me/gleb_sexy/10