
Больше не придётся ждать, когда видео с переводом появится в записи после завершения мероприятия. Прямые трансляции можно посмотреть сразу на русском языке в режиме онлайн: вебинары, бизнес-конференции и презентации крупных технологических компаний — например, осеннюю презентацию Apple. Автоматический закадровый перевод прямых трансляций дополняет технологии голосового перевода видео и интерактивных субтитров.
«Мы продолжаем совершенствовать технологии, которые помогают стирать языковые границы в интернете. Например, за 10 месяцев пользователи Яндекс Браузера посмотрели 81 млн видеороликов с закадровым переводом. Потом мы взялись за субтитры, а теперь пришло и время перевода лайвов. Следующий шаг — перевод потоковых трансляций и видеороликов не только на YouTube, но и, например, в Twitch. Мы научили нейросети переводить трансляции на английском, немецком, французском, итальянском и испанском. Далее мы добавим новые пары европейских языков, а также китайский, японский и другие», — рассказал руководитель приложения Яндекс и Яндекс Браузера Дмитрий Тимко.
Закадровый перевод потокового видео — невероятно сложная инженерная задача. С одной стороны, для качественного перевода иностранной речи очень важен контекст, так как в разных ситуациях одно и то же слово может иметь разные значения — для этого желательно «отдать» нейросети как можно больше текста за один раз. Однако при работе с потоковым сценарием важна минимальная задержка, а это значит, что переводить нужно моментально — ждать, пока спикер закончит формулировать развернутую мысль, просто нет времени. Нейросети выступают в роли синхронного переводчика, который начинает переводить предложение еще до того, как его закончили произносить.
Для быстрой и качественной работы в потоковом сценарии понадобилось перестроить всю архитектуру закадрового перевода видео. В случае с записанными роликами нейросеть получает всю аудиодорожку целиком, а значит, обладает полным контекстом, что облегчает задачу. Работа с переводом прямой трансляции строится совершенно иначе: одна нейросеть распознает аудио и превращает его в текст буквально на лету, другая — определяет пол спикера по биометрии. Но самое сложное — это следующий этап. Третья нейросеть расставляет знаки препинания и выделяет из текста смысловые фрагменты — части, которые содержат законченную мысль. Именно их забирает ещё одна нейросеть, отвечающая за перевод, который сразу синтезируется на русском языке.
Протестировать технологию может любой пользователь Яндекс Браузера на компьютере: закадровый перевод стримов сейчас доступен для определенного списка каналов на YouTube, на которых проводятся прямые трансляции.