
Чтобы избавиться от костылей, Alibaba предложила архитектуру Qwen-Image-Layered, которая меняет сам принцип создания изображения. Вместо того чтобы рисовать плоский холст и потом пытаться его разрезать, модель изначально генерирует несколько слоёв, обучившись на реальных PSD-файлах. Это позволяет ей нативно понимать прозрачность и структуру сцены, отделяя текст, персонажей и фон еще на этапе генерации картинки. Фактически, нейросеть перестает быть просто художником и становится верстальщиком.
Тесты компании показывают, что такой подход даёт куда более чистые границы объектов, чем попытки постфактум разделить готовое изображение. Это превращает картинку в конструктор: можно безболезненно менять композицию и отдельные слои, не генерируя её заново. Однако за это приходится платить ресурсами: генерация сразу множества слоёв требует больше мощностей, а модели всё равно приходится «галлюцинировать», додумывая скрытые за объектами участки фона.
Для массового пользователя это скорее минус: такой подход убивает магию «идеальной картинки в один клик», заставляя пользователя вникать и тратить силы. Но для профессионального рынка эта технология потенциально может стать очень полезной, ведь дизайнеры и агентства получают не просто красивый арт, а файл PSD (так ещё и без костылей в виде Segment Anything и инпеинтинга), где правки вносить легко и результат более предсказуем.
