В Китае сделали первую видеомодель, которая умеет сразу и генерировать, и редактировать видео

Kling запустили Kling O1 – новый флагманский видеодвижок. Компания и её партнёры называют его «первой в мире единой мультимодальной видео-моделью», то есть одной моделью, которая работает с текстом, изображениями и видео сразу. В медиа Kling O1 уже сравнивают с Nano Banana, только для видео. Модель доступна на платформе Kling и у партнёров

В отличие от классических схем с отдельными режимами «text-to-video», «image-to-video» и «video-to-video», Kling O1 принимает сразу несколько типов входа: промпт, референс-видео, изображения с персонажами и стилем. Архитектура MVL (Multimodal Visual Language), по описанию разработчиков, сначала строит внутреннее представление сцены (состав кадров, движение, камера, освещение), а уже затем генерирует или правит ролик. В рамках одной модели доступны генерация с нуля, продление шота, смена стиля, добавление/удаление объектов и редактирование уже снятого видео по тексту и референсам.

На фоне конкурентов ключевое отличие Kling O1 в рабочем процессе: это попытка свести в единую модель то, что раньше делалось набором разрозненных инструментов, от черновой генерации до точечного пост-продакшена. При этом судя по открытым демо, прорыв по «реализму физики» и общему качеству картинки относительно других флагманских моделей не очевиден, а похожие задачи уже решались Veo, Runway, WAN и другими, только с помощью нескольких режимов.

//Илья Власов