Baidu ещё в мае прошлого года подавала патент на перевод речи животных на человеческий язык. Компания описала мультимодальную систему, где берутся вокализации, поведение и физиологические сигналы животного, после чего модель пытается определить эмоциональное состояние и превратить в понятный людям сигнал. Готового продукта или хотя бы иллюстрации работы системы на сегодняшний день нет.
Зато достижения есть на другом направлении. Например, Project CETI, который занимается коммуникацией кашалотов, за это время сделал несколько шагов. Исследователи пришли к выводу, что щелчки кашалотов устроены сложнее, чем просто набор одинаковых звуков: в них есть структура, сочетания и зависимость от контекста. А в конце 2025 года проект представил модель WhAM, которая умеет работать с этими паттернами. Во время наблюдения рождения кашалота исследователи заметили, что вокализация меняется в ключевые моменты события — это даёт людям большее понимание о сложности и структуре устройства коммуникации кашалотов.
Google DeepMind вместе с Wild Dolphin Project уже показали DolphinGemma для анализа звуков дельфинов. Earth Species Project развивает NatureLM-audio как более универсальный инструмент для биоакустики. Даже эксперименты с собачьим лаем показывают примерно то же самое: ИИ пока не понимает животных в человеческом смысле, но уже всё лучше различает контекст, эмоциональное состояние и повторяющиеся звуковые схемы. Исследователи стали лучше понимать, какие сигналы животные издают, в какой ситуации и как эти сигналы между собой связаны. Но полноценный разговор со своей с кошкой за последний год, к сожалению, ближе не стал.