VK улучшила технологии преобразования речи в текст в продуктах группы

11 декабря 2025, 14:25

1 мин

Иллюстрация предоставлена пресс-службой VK

Инженеры AI VK улучшили технологию автоматического распознавания речи (ASR) на базе моделей машинного обучения. Решение распознает речь на 20% точнее по сравнению с предыдущей версией, что повышает качество субтитров, расшифровок голосовых сообщений и “кружочков” в продуктах группы.

Технология автоматического распознавания речи (ASR) превращает голос в текст: она переводит звук в цифровой формат, очищает запись от шума и анализирует особенности звучания, чтобы понять, какие слова произнесены. LLM и нейросетевые модели помогают системе понимать контекст, смысловые связи и устойчивые выражения, благодаря чему расшифровка становится естественной и точной.

Новая версия ASR-технологий VK дообучена на расширенном датасете аудиодорожек из публично доступных видеороликов VK Видео, поэтому точнее понимает темп и манеру речи. По итогам внутренних тестов, модель превосходит зарубежные аналоги и сервисы по качеству распознавания (WER) звуковых дорожек видео на русском языке.

ASR-технологии VK используются в создании субтитров в VK Видео, VK Клипах, Учи.ру и в голосовых сообщениях мессенджера ВКонтакте. Они применяются для внутренних и инженерных задач, например, для расшифровки встреч или их суммаризации, а также для улучшения мультимодальных моделей в рекомендательной системе Discovery. Обновлённая версия уже работает в VK Видео и VK Клипах, используется во внутренних сервисах команды VK и постепенно будет внедряться в другие продукты группы. В планах у команды AI VK — повышение точности распознавания голосовых сообщений, расширение поддержки языков и добавление диаризации (разделения по спикерам).