МИФИ собрал систему для анализа научных данных МИФИ собрал систему для анализа научных данных Amazon продал подписку дважды Amazon продал подписку дважды Пекин отвечает Пентагону его же оружием Пекин отвечает Пентагону его же оружием Google научилась генерировать видео на основе панорам с улиц Google научилась генерировать видео на основе панорам с улиц

ВКонтакте открывает доступ к собственным технологиям распознавания речи сторонним разработчикам

🇷🇺 2 мин
Иллюстрация предоставлена пресс-службой VK

Теперь разработчики смогут бесплатно использовать в своих инди-проектах технологию ВКонтакте, которая считывает голос и переводит его в текст. Технология распознавания речи, или ASR, Automatic Speech Recognition, внедряется в несколько кликов. Нейросети хорошо справляются с аудио с посторонними шумами, большим количеством сленга и сокращений.

Для распознавания можно выбрать одну из двух моделей. Нейтральная подойдёт для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом и ненормативной лексикой. Нейросети ВКонтакте обрабатывают файлы за несколько секунд, умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь и даже отдельный звук «ъ».

Технологию можно попробовать через веб-интерфейс на специальной странице или интегрировать через публичный API ВКонтакте. На портале доступен широкий набор методов, с помощью которых можно создавать мини-приложения ВКонтакте или использовать в сторонних проектах. Решение подойдёт для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития. Версию с обработкой аудио до 100 минут в сутки можно применять для любых целей. А для безлимитного использования технологии можно отправить заявку на электронную почту.

Александр Тоболь, СТО ВКонтакте: «Мы считаем важным помогать рынку и уже делимся широким набором собственных уникальных технологий. Наше ASR-решение — одно из лучших в отрасли по распознаванию обыденной, повседневной речи, в которой нередко встречается сленг, заимствования, сокращения. Каждый месяц пользователи ВКонтакте отправляют более 2 млрд голосовых — это миллионы часов аудио, которые обрабатывают наши нейросети. Применение технологии ограничено только вашей фантазией: можете сделать игру с голосовым управлением или с помощью чат-бота наконец добавить распознавание голосовых в какой-нибудь сторонний мессенджер. Надеемся, что наш ASR поможет появиться новым необычным стартапам и инди-проектам от молодых перспективных разработчиков».

ASR используется ВКонтакте для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций и многого другого. Под капотом у решения сразу три нейросети: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Технология построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается очень быстро — примерно за 1,5 секунды после отправки.