Пермские ученые научили роботов копировать эмоции собеседника

В пермском политехе ученые научились синтезировать голос с человеческими эмоциями.

Интонировать знаки препинания — запятые, вопросительные знаки и проч — голосовые помощники научились давно. Но по-прежнему общение с Алисами и Джоями напоминает разговор с кем-то под веществами, настолько они полны энтузиазма и радости. Эмоциональное интонирование синтезированного голоса — непростая задача, и пермские ученые сделали очередной шаг к тому, чтобы голосовые помощники смогли считывать эмоции своего собеседника и подстраивать свой голос под них. Проще говоря, если вы будете раздражены, помощник сможет это учитывать и отвечать с нужным эмоциональным накалом.

Метод, предложенный нашими учеными, базируется на анализе живых голосов. Они обнаружили эмоциональный интонационный паттерн в речи и воссоздали его по той же фразе, произнесенной другим голосом. При этом и голос и эмоции разных людей отличаются по скорости и ритму. Нужно было найти повторяющиеся звуки во фразах и сопоставить их, чтобы верно изменить высоту тона и ритм речи робота. Для этого ученые использовали технику динамического преобразования времени. Результаты исследования они представили в журнале 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (ElConRus).

Для оценки работы метода ученые провели эксперимент. С помощью студентов Пермского института культуры они записали 8 голосовых форматов эмоций и первый голос в спокойном тоне. Далее были разработаны матмодели эмоций голоса с помощью двух методов: наименьших квадратов и кепстральных коэффициентов. Таким образом удалось синтезировать измененные голоса.

Нам кажется, что сама по себе разработка может быть использована не только в голосовых помощниках, которые общаются с пользователем, но и в базовых голосовых роботах, используемых сегодня в службе поддержки клиентов. Очевидно, если эмоциональный окрас речи звонящего намекает, что он раздражен, лучше сразу его перекинуть на оператора прежде, чем он станет раздражен еще больше в процессе прохода через многоуровневое голосовое меню.

Ну и странно, что до сих пор не появился голосовой помощник с голосом Коляна, который на приветствие пользователя будет отвечать «курлык, епта, чо хотел?» Пермь, все таки.