ИИ из художника превращается в верстальщика

Современные генеративные модели похожи на талантливых импульсивных художников. Они могут создать шедевр, но стоит попросить их немного подвинуть один объект и точечно изменить яркость другого — они психанут, перерисуют всю картинку заново, попутно поменяв какие-то детали. Проблема в том, что для нейросети объект и фон — это единое целое, поэтому любое вмешательство вызывает непредсказуемые изменения контента. Индустрия пытается лечить это костылями, вырезая объекты масками и заполняя дыры.

Чтобы избавиться от костылей, Alibaba предложила архитектуру Qwen-Image-Layered, которая меняет сам принцип создания изображения. Вместо того чтобы рисовать плоский холст и потом пытаться его разрезать, модель изначально генерирует несколько слоёв, обучившись на реальных PSD-файлах. Это позволяет ей нативно понимать прозрачность и структуру сцены, отделяя текст, персонажей и фон еще на этапе генерации картинки. Фактически, нейросеть перестает быть просто художником и становится верстальщиком.

Тесты компании показывают, что такой подход даёт куда более чистые границы объектов, чем попытки постфактум разделить готовое изображение. Это превращает картинку в конструктор: можно безболезненно менять композицию и отдельные слои, не генерируя её заново. Однако за это приходится платить ресурсами: генерация сразу множества слоёв требует больше мощностей, а модели всё равно приходится «галлюцинировать», додумывая скрытые за объектами участки фона.

Для массового пользователя это скорее минус: такой подход убивает магию «идеальной картинки в один клик», заставляя пользователя вникать и тратить силы. Но для профессионального рынка эта технология потенциально может стать очень полезной, ведь дизайнеры и агентства получают не просто красивый арт, а файл PSD (так ещё и без костылей в виде Segment Anything и инпеинтинга), где правки вносить легко и результат более предсказуем.

//Илья Власов