Apple пробует новый путь для генерации видео

Apple представила STARFlow-V — модель для генерации видео, у которой, в отличие от популярных сейчас решений вроде Veo, Sora, Kling и остальных диффузионных систем, в основе лежит другой подход (normalizing flows).

Вместо многократного добавления и очистки шума здесь сразу моделируют, каким должен быть следующий кусок ролика. Одна и та же модель из текста генерирует видео, может «оживлять» статичные изображения и изменять уже готовые клипы. По качеству она пока не дотягивает до флагманов рынка, и Apple этого не скрывает, ведь задачей было в принципе доказать, что архитектура рабочая.

Один уровень модели следит за тем, чтобы видео оставалось последовательной историей: объекты не исчезали из кадра, персонажи не «телепортировались», сцена менялась плавно. Другой уровень отвечает за внешний вид каждого кадра: текстуры, свет, мелкие детали. Модель двигается по ролику от начала к концу и на каждом шаге опирается только на уже созданные кадры, а не на «подсказки» из будущего. Чтобы результат не был шумным и не содержал артефактов, поверх основного генератора обучен лёгкий модуль, который за один дополнительный проход чистит картинку.

Зачем это нужно? Такая схема подходит для сценарией, где видео нужно генерировать в ответ на действия пользователя: в играх, AR/VR, интерактивных сервисах, ассистентах. Когда модель идёт строго вперёд по времени, её проще встроить в живой продукт, а не использовать только для офлайн-рендера. У Apple появляется своя потоковая модель, которая удобна для будущих симуляторов и «мировых моделей», которые не просто рисуют картинку, а оценивают, насколько происходящее соответствует реальности.

//Илья Власов