Нейросеть Яндекса научилась генерировать видео в Шедевруме

Яндекс первым на российском рынке запустил технологию создания видео с помощью нейросети для пользователей. Такая возможность появилась в Шедевруме: в ответ на текстовые запросы приложение генерирует короткие ролики. Они могут стать основой для музыкальных клипов, анимации, динамических аватарок в соцсетях и позволят воплотить в жизнь другие креативные идеи.

Шедеврум генерирует видео длиной четыре секунды с частотой 24 кадра в секунду. После публикации ими можно поделиться с друзьями или сохранить в формате MP4. Сейчас функция работает в режиме тестирования. Генерация видео доступна в обновлённой версии приложения активным пользователям Шедеврума, а посмотреть результаты в ленте могут все.

Для того, чтобы сгенерировать видео в Шедевруме, нужно описать текстом то, что хочется увидеть. В ответ приложение предложит четыре варианта первого кадра и набор анимационных эффектов для создания движения. Нейросеть берёт за основу выбранное пользователем изображение, генерирует набор его изменённых версий и объединяет всё выбранным эффектом. Сейчас их семь: зум (приближение), таймлапс (ускоренная перемотка), полёт, панорама, вращение, подъём и морфинг (постепенное изменение).

Для создания кадров будущего видео используется метод каскадной диффузии. С помощью этой технологии Шедеврум генерирует отдельные изображения. Сначала нейросеть создаёт картинки в соответствии с запросом, а затем поэтапно увеличивает их разрешение, насыщая деталями.

Генерация видео дополняет другие возможности Шедеврума — создание изображений и текстовых постов с заголовком и иллюстрацией. Отправить запрос на коммерческое использование контента из Шедеврума можно через форму обратной связи — ответ придёт в течение 5 рабочих дней.

Яндекс представил Шедеврум в апреле 2023 года. Сразу после запуска приложение попало на первые строчки российских топов App Store и Google Play, и с тех пор его установили более 5,8 миллиона пользователей iOS и Android. Нейросеть Шедеврума содержит 5 миллиардов параметров и обучалась на 330 миллионах примеров картинок с текстовым описанием.