
В отличие от классических схем с отдельными режимами «text-to-video», «image-to-video» и «video-to-video», Kling O1 принимает сразу несколько типов входа: промпт, референс-видео, изображения с персонажами и стилем. Архитектура MVL (Multimodal Visual Language), по описанию разработчиков, сначала строит внутреннее представление сцены (состав кадров, движение, камера, освещение), а уже затем генерирует или правит ролик. В рамках одной модели доступны генерация с нуля, продление шота, смена стиля, добавление/удаление объектов и редактирование уже снятого видео по тексту и референсам.
На фоне конкурентов ключевое отличие Kling O1 в рабочем процессе: это попытка свести в единую модель то, что раньше делалось набором разрозненных инструментов, от черновой генерации до точечного пост-продакшена. При этом судя по открытым демо, прорыв по «реализму физики» и общему качеству картинки относительно других флагманских моделей не очевиден, а похожие задачи уже решались Veo, Runway, WAN и другими, только с помощью нескольких режимов.
