
Секрет в комбинации трёх источников информации: мимики, звучания голоса и смысла сказанных слов. Вместо того чтобы полагаться только на изображение лица, система анализирует сразу несколько каналов. Такой подход чем-то приближает ИИ к людям, которые тоже анализируют информацию из огромного количества каналов, чтобы понять настроение и мысли собеседника, а точность распознавания в итоге растёт. Выглядит как логичное продолжение предыдущих разработок Сбера, Giga Acoustic Model, которые умеют распознавать эмоции по голосу.
Зачем это умение нужно людям — понятно. А где использовать нейросеть? Например, в чат-ботах и ассистентах, которые научатся правильно реагировать на эмоциональное состояние человека и подстраиваться, станут более «эмпатичными». Ну а если говорить про банковский сектор, то коллекторы в том же Сбере используют ИИ для определения эмоций должников (он помогает им спланировать сценарий общения), так что практическое применение уже есть.