Когда переводчика нет: синхронный перевод со смартфона

На конференции MWC Doha 2025 в Катаре часть спикеров решила выступать на арабском языке вместо английского. Перевода на площадке для этой конкретной сессии не было, что оказалось довольно существенной проблемой для тех, кто не знает арабский (например, для нашей редакции). Но эту проблему удалось довольно быстро и эффективно решить — с помощью переводчика Google и LLM.

На запуск перевода в реальном времени ушло буквально 20 секунд: достаточно зайти в приложение Google Переводчика, выбрать нужный язык (в нашем случае арабский) и включить режим «Разговор». Это уже не тот старый переводчик, который часто выдавал нелепые фразы и переводил буквально: приложение научилось подстраивать текст под контекст. По мере того, как спикер договаривает фразу, перевод переписывается и дополняется в реальном времени, появляются связки, согласуются падежи и окончания. И всё это уже работает без модных нынче «ИИ-наушников», в сторону которых вдруг стали неровно дышать отдельные компании — достаточно обычного смартфона. И, при желании, обычных наушников для перевода голосом, хотя проще читать с экрана.

Работает это благодаря конвейеру из распознавания речи, машинного перевода и, при необходимости, озвучки. За перевод теперь отвечает связка из специализированных моделей и LLM. В Google Cloud Translation продукт позиционируют как «translation powered by Gemini» с адаптивным переводом и кастомными моделями, в приложении Google Translate для пользователей технология также постепенно внедряется. LLM поверх классических моделей помогает учитывать контекст и на ходу подстраивать под него переведённый текст.

Принцип тот же, что мы описывали в посте про расшифровку аудио с мультимодальными моделями Gemini, только в реальном времени.

#MWCDoha #MWC25

//Илья Власов