Робот посмотрел весь YouTube, чтобы научиться говорить

Пока языковые модели более-менее научились писать тексты, общаться и сдавать экзамены, физические роботы всё ещё в основном эпично падают, и в целом вызывают желание не поговорить по душам, а сбежать. Их лица напоминают паралитиков или психопатов отсутствием эмпатии и дёрганой мимикой. Команда Колумбийского университета решила улучшить этот аспект работы роботов и сделала EMO. Идея в том, чтобы с помощью нейросетей заставить машину учиться самой, имитируя человеческий подход к обучению мимике.

Робот с 26 моторами под силиконовой кожей проходит два этапа. Сначала он часами кривляется перед зеркалом, сопоставляя сигналы моторов с тем, что видит в отражении (калибрует самоощущение). А затем смотрит терабайты видео с людьми на YouTube, чтобы понять, как двигаются губы при разных звуках. В итоге получается система, которая напрямую перегоняет аудиофайл в движения сервоприводов.

В теории, один раз обученная подобная модель может «оживить» любую механическую голову, что открывает широкие просторы для экономии денег и её использования, к примеру, в бизнесе. Но тут есть нюанс — обучение коммерческого продукта на чужих видео с YouTube без спроса нарушает Terms of Service. Если технология выйдет за пределы лаборатории, правообладатели могут требовать компенацию за использование их лиц и голосов при обучении.

Создатели заявляют, что робот поддерживает десяток языков. Несмотря на это, результат всё ещё выглядит адекватно разве что на английском. Да и пластика почти не меняется. А самое главное, что это не делает робота «живее»: двигаюся только губы, пока остальная часть лица остаётся мёртвой и бездвижной. Возможно, оживление лица это следующий этап проекта. Хотя моторам и силикону всё ещё очень далеко до уровня человеческой мимики.

//Илья Власов