Новая технология автоматически генерирует текст, расставляет знаки препинания и заглавные буквы, распределяет текст по кадрам и обеспечивает точность появления субтитра в момент произнесения фразы. В отличие от существующих решений на рынке, технология «ВКонтакте» умеет проставлять в субтитрах знаки препинания и заглавные буквы, а в ближайшем будущем научится разделять речь спикеров на разные реплики. Всё это значительно повышает понятность расшифровки и упрощает чтение во время просмотра видео.
Соцсеть ведёт тестирование и дообучение новой технологии: субтитры в экспериментальном режиме уже доступны части аудитории в популярных роликах и видео из верифицированных сообществ в веб-версии и мобильном приложении «ВКонтакте».
Автоматические субтитры будут полезны, когда важно соблюдать тишину, нужно посмотреть видео без звука или не хочется мешать окружающим: например, в метро или офисе. Также благодаря субтитрам людям с нарушениями слуха будет проще понимать содержание видео.
Для обеспечения высокого качества расшифровки субтитров аудиопоток проходит четыре этапа обработки. Сначала запись очищается от фоновых звуков с помощью уникальной технологии интеллектуального шумоподавления — это позволяет лучше определять речь не только на профессиональных видео, но и на любительских роликах. Затем нейросеть распознаёт слова и формирует из них текст. На третьем этапе подключается пунктуационная модель: она расставляет знаки препинания и заглавные буквы. Эти решения «ВКонтакте» ранее применила для распознавания аудиосообщений, а для работы с видео к ним добавили ещё один шаг: методы машинного обучения распределяют текст по кадрам, чтобы фраза появлялась точно в момент, когда говорящий её произносит.
Особое внимание уделено и производительности технологии автоматических субтитров. Инфраструктурные ресурсы используются максимально эффективно, что помогает обрабатывать все загруженные видео и быстро генерировать субтитры для новых роликов.
В ближайшее время смотреть видео с субтитрами станет ещё удобнее. Технология создания автоматических субтитров дополнится диаризацией — это процесс, в котором аудиопоток делится на реплики в соответствии с конкретным спикером. Благодаря диаризации, фразы разных людей в расшифровке будут самостоятельными, даже если собеседники общаются без заметных пауз.
Сначала автоматические субтитры появятся в видео верифицированных сообществ, а также в самых популярных роликах. До конца года автоматические субтитры станут доступны в большинстве видео «ВКонтакте».
Александр Тоболь, технический директор «ВКонтакте»: «В современном мире очень много информации, но, к сожалению, не для всех она одинаково доступна. «ВКонтакте» стремится разрушать любые барьеры в коммуникации между людьми, активно инвестируя в развитие речевых технологий. Все решения, использующиеся для автогенерации субтитров, — собственные разработки. Это позволяет адаптировать их под разные функции сервиса и настраивать для максимально эффективной работы. Например, для создания субтитров мы усовершенствовали наши ASR-технологии и реализовали решения, которые точно синхронизируют текст с речью на видео. В будущем мы продолжим развивать нейросетевые технологии и внедрять машинное обучение в разные сервисы «ВКонтакте».
Ранее «ВКонтакте» полностью сняла ограничения на одновременное количество зрителей в прямых эфирах, а видео и трансляции стали доступны даже в сетях с нестабильным соединением и на слабых устройствах. Также обновления коснулись качества картинки: теперь пользователи могут смотреть видео и прямые эфиры в качестве 4К — оценить его помогает стриминг на сетевые медиаплееры Chromecast и AirPlay.