Голосовой ИИ научился не молчать в трубку

Пару лет назад разработчики решили сделать ИИ-ассистентов похожими на людей. Сервисы вроде Sesame AI научились вздыхать, запинаться, причмокивать и имитировать другие звуки. Вышло настолько натурально, что OpenAI даже отложили релиз аналогичной модели - официально из-за «улучшения способности отклонять нежелательный контент», неофициально - из-за роликов со стонущей, кричащей и правдоподобно имитирующей разговор по телефону нейросетью. Её по итогу отучили это делать (чем, вероятно, очень расстроили мошенников). После чего поняли, что гораздо безопаснее и логичнее делать не цифровую копию человека, которая дышит и заикается, а предсказуемый инструмент для бизнеса. Для этого работать надо не над натуральностью голоса, а над улучшением самого процесса общения.
Именно по этому пути пошла OpenAI с новой моделью GPT-Realtime-2. Она пытается убрать старую проблему голосовых ассистентов, когда после команды пользователь стоит в тишине и не понимает, работает система или зависла. Теперь, пока бот идёт в CRM или смотрит календарь, он может сказать «секунду, сейчас посмотрю» и объяснить, что делает. Голосовая модель учится одновременно вести разговор, рассуждать и обращаться к внешним системам. Если ИИ перебить и на ходу поменять задачу, он замолкнет, выслушает и перестроится. Для длинных сценариев OpenAI также увеличила контекстное окно модели с 32 до 128 тысяч токенов. По замыслу компании, разговор должен перестать ощущаться как ожидание ответа от робота.
Параллельно OpenAI обновила ещё два продукта. Модель для синхронного перевода GPT-Realtime-Translate теперь продолжает работать, если спикер в середине предложения переходит на другой язык. А алгоритм транскрибации Whisper, которого в последнее время начали теснить с рынка конкуренты вроде Nvidia Parakeet, получил потоковую расшифровку звука в реальном времени .