Дом.ру сузил двери Дом.ру сузил двери Nvidia хочет быть архитектором нового мира – что показали на GTC 2026 Nvidia хочет быть архитектором нового мира – что показали на GTC 2026 Adobe заплатит 150 миллионов долларов за обман с подписками Adobe заплатит 150 миллионов долларов за обман с подписками BYD хочет построить производство электрокаров в Канаде BYD хочет построить производство электрокаров в Канаде

VK улучшила технологии преобразования речи в текст в продуктах группы

Россия 1 мин
Иллюстрация предоставлена пресс-службой VK

Инженеры AI VK улучшили технологию автоматического распознавания речи (ASR) на базе моделей машинного обучения. Решение распознает речь на 20% точнее по сравнению с предыдущей версией, что повышает качество субтитров, расшифровок голосовых сообщений и “кружочков” в продуктах группы.

Технология автоматического распознавания речи (ASR) превращает голос в текст: она переводит звук в цифровой формат, очищает запись от шума и анализирует особенности звучания, чтобы понять, какие слова произнесены. LLM и нейросетевые модели помогают системе понимать контекст, смысловые связи и устойчивые выражения, благодаря чему расшифровка становится естественной и точной.

Новая версия ASR-технологий VK дообучена на расширенном датасете аудиодорожек из публично доступных видеороликов VK Видео, поэтому точнее понимает темп и манеру речи. По итогам внутренних тестов, модель превосходит зарубежные аналоги и сервисы по качеству распознавания (WER) звуковых дорожек видео на русском языке.

ASR-технологии VK используются в создании субтитров в VK Видео, VK Клипах, Учи.ру и в голосовых сообщениях мессенджера ВКонтакте. Они применяются для внутренних и инженерных задач, например, для расшифровки встреч или их суммаризации, а также для улучшения мультимодальных моделей в рекомендательной системе Discovery. Обновлённая версия уже работает в VK Видео и VK Клипах, используется во внутренних сервисах команды VK и постепенно будет внедряться в другие продукты группы. В планах у команды AI VK — повышение точности распознавания голосовых сообщений, расширение поддержки языков и добавление диаризации (разделения по спикерам).