Сторонним разработчикам открыли доступ к технологии «ВКонтакте», которая считывает голос и переводит его в текст. Технология распознавания речи или ASR (Automatic Speech Recognition), внедряется в несколько кликов. Об этом рассказал технический директор «ВКонтакте» Александр Тоболь на открытии конференции Saint HighLoad++.
Для распознавания можно выбрать одну из двух моделей. Нейтральная подойдет для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом и ненормативной лексикой. Нейросети «ВКонтакте» умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь.
Технология доступна через веб-интерфейс на специальной странице или через публичный API «ВКонтакте». Решение подойдет для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития.
Как рассказал СТО «ВКонтакте» Александр Тоболь, каждый месяц пользователи отправляют более 2 млрд голосовых сообщений — это миллионы часов аудио, которые обрабатывают нейросети компании. ASR используется «ВКонтакте» для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций. Под капотом у решения сразу три нейросети: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Технология построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается примерно за 1,5 секунды после отправки.
Источник servernews