Дипфейк на собеседовании и ферма ноутбуков: в США нашли мошенников из Северной Кореи Дипфейк на собеседовании и ферма ноутбуков: в США нашли мошенников из Северной Кореи Нить, которая двигается от электричества, может стать основой умной одежды Нить, которая двигается от электричества, может стать основой умной одежды 1,8 миллиона россиян получили интернет. Вышки тащили на вертолетах и вездеходах 1,8 миллиона россиян получили интернет. Вышки тащили на вертолетах и вездеходах Беспилотные КАМАЗы проехали 6 миллионов километров Беспилотные КАМАЗы проехали 6 миллионов километров

YandexART научилась создавать короткие видео с движущимися объектами

Россия 1 мин
Иллюстрация предоставлена пресс-службой Яндекса

Яндекс представил бета-версию нейросети YandexART (Vi) для создания пятисекундных видео. Модель научилась воссоздавать плавные движения объектов в кадре, например, бег собаки, падение листа с дерева или взрыв фейерверка. Нейросеть могут использовать как обычные пользователи, чтобы создать, например, уникальную анимированную заставку на телефон, так и блогеры, мультипликаторы, креаторы и другие специалисты. YandexART (Vi) уже доступна в приложении Шедеврум.

Компания представила предыдущую версию модели для генерации видео по текстовому описанию в августе прошлого года. Прошлое решение позволяло получать анимации, которые выглядели так, будто двигалась камера, но не объект. Кроме того, от кадра к кадру объекты при генерации значительно менялись. YandexART (Vi) научилась воссоздавать реалистичные движения, а также учитывать связь между кадрами — благодаря этому видео получаются более цельными и плавными. Чтобы нейросеть могла справляться с этой задачей, её обучили на роликах с движущимися объектами, например, с едущим автомобилем или крадущимся котом.

Нейросеть создаёт последовательность кадров, которые незаметно сменяют друг друга и образуют плавное видео. На вход модель получает текстовое описание от пользователя о том, что должно быть в кадре (например: «Носорог танцует хип-хоп в сумрачном лесу»), и создаёт картинку, с которой будет начинаться анимация. Затем модель постепенно превращает цифровой шум в последовательность кадров, опираясь на это изображение и текстовый запрос.