На запуск перевода в реальном времени ушло буквально 20 секунд: достаточно зайти в приложение Google Переводчика, выбрать нужный язык (в нашем случае арабский) и включить режим «Разговор». Это уже не тот старый переводчик, который часто выдавал нелепые фразы и переводил буквально: приложение научилось подстраивать текст под контекст. По мере того, как спикер договаривает фразу, перевод переписывается и дополняется в реальном времени, появляются связки, согласуются падежи и окончания. И всё это уже работает без модных нынче «ИИ-наушников», в сторону которых вдруг стали неровно дышать отдельные компании — достаточно обычного смартфона. И, при желании, обычных наушников для перевода голосом, хотя проще читать с экрана.
Работает это благодаря конвейеру из распознавания речи, машинного перевода и, при необходимости, озвучки. За перевод теперь отвечает связка из специализированных моделей и LLM. В Google Cloud Translation продукт позиционируют как «translation powered by Gemini» с адаптивным переводом и кастомными моделями, в приложении Google Translate для пользователей технология также постепенно внедряется. LLM поверх классических моделей помогает учитывать контекст и на ходу подстраивать под него переведённый текст.
Принцип тот же, что мы описывали в посте про расшифровку аудио с мультимодальными моделями Gemini, только в реальном времени.
#MWCDoha #MWC25