МИФИ собрал систему для анализа научных данных МИФИ собрал систему для анализа научных данных Amazon продал подписку дважды Amazon продал подписку дважды Пекин отвечает Пентагону его же оружием Пекин отвечает Пентагону его же оружием Google научилась генерировать видео на основе панорам с улиц Google научилась генерировать видео на основе панорам с улиц

Пользователям VK Звонков стали доступны текстовая расшифровка встреч и автоматические субтитры в реальном времени

🇷🇺 2 мин
Иллюстрация предоставлена пресс-службой ВК

Платформа для видеовстреч VK Звонки представила новые возможности на основе машинного обучения и нейросетей. Функция расшифровки автоматически переводит звуковую дорожку встречи в текст, который можно найти в чате звонка после его окончания. Пользователи также смогут запустить автосубтитры — они будут дублировать речь участников звонка в ходе встречи. Новые возможности доступны всем пользователям VK Звонков.

Текстовую расшифровку может включить любой пользователь группового звонка, при этом участники встречи получат уведомление о её начале. После окончания встречи файл с текстом придёт в чат звонка и будет сохранён в специальном разделе в профиле пользователя, запустившего функцию. В файле расшифровки автоматически расставляются тайм-коды и имена говорящих. Также пользователи смогут включать автоматические субтитры — они будут демонстрироваться во время речи каждого спикера в реальном времени. При этом субтитры будут показываться только у тех участников, которые самостоятельно их включили.

Нейросеть умеет определять разных спикеров и разделять речь на предложения. Текстовую расшифровку можно запустить вместе с субтитрами и записью звонка. Новые функции также доступны в сессионных залах и в звонках от имени сообщества. Автоматический перевод аудио в текст работает с речью на русском, в дальнейшем команда добавит и другие языки. Кроме того, в ближайших планах платформы запуск новых функций в звонках один на один и возможность администратора настраивать, кто из участников встречи может запускать расшифровку.

Перевод речи в текст использует собственные нейросетевые разработки ВКонтакте, которые соцсеть применяет для расшифровки голосовых сообщений и создания автосубтитров в видео. Для обеспечения высокого качества расшифровки аудиопоток проходит несколько этапов обработки. Запись очищается от фоновых звуков с помощью интеллектуального шумоподавления, затем нейросеть распознаёт слова, формирует из них текст и делит речь на предложения в соответствии с конкретным спикером. Нейросети постоянно совершенствуются и учатся в том числе на актуальной разговорной речи и сленге.

Новые возможности будут особенно полезны тем, кто использует VK Звонки для делового общения — когда нужно быстро расшифровать интервью, отправить ключевые тезисы после встречи или рассказать об итогах звонка коллегам, которые не смогли присутствовать. Субтитры выручат в ситуации, когда важно соблюдать тишину: например, в общественном месте, если под рукой нет наушников. Кроме того, это шаг к формированию доступной цифровой среды для слабослышащих пользователей: они смогут участвовать во встречах без ограничений.