Сбер научил ИИ понимать человеческие эмоции

Эмоции — это то, что делает нас людьми. Но их распознавание оказалось непростой задачей для нейросетей: причина в том, что освещения, ракурсы, фоновый шум — все эти условия постоянно меняются, а ИИ начинает теряться и сбоить. Учёные Сбера в этих условиях вдохновились… Людьми. И создали маленькие модели, которые можно запустить даже на телефоне и которые учитывают при определении эмоций не только выражение лица, но и другие факторы.

Секрет в комбинации трёх источников информации: мимики, звучания голоса и смысла сказанных слов. Вместо того чтобы полагаться только на изображение лица, система анализирует сразу несколько каналов. Такой подход чем-то приближает ИИ к людям, которые тоже анализируют информацию из огромного количества каналов, чтобы понять настроение и мысли собеседника, а точность распознавания в итоге растёт. Выглядит как логичное продолжение предыдущих разработок Сбера, Giga Acoustic Model, которые умеют распознавать эмоции по голосу.

Зачем это умение нужно людям — понятно. А где использовать нейросеть? Например, в чат-ботах и ассистентах, которые научатся правильно реагировать на эмоциональное состояние человека и подстраиваться, станут более «эмпатичными». Ну а если говорить про банковский сектор, то коллекторы в том же Сбере используют ИИ для определения эмоций должников (он помогает им спланировать сценарий общения), так что практическое применение уже есть.

//Илья Власов