Главные отличия «аналогов Фотошопа» от Google и OpenAI

Изображения из сервисов ChatGPT и Gemini
В ChatGPT появилась новая функция, аналогичная выпущенной не так давно Google, которая позволяет генерировать и точечно редактировать изображения прямо в чате. Можно попросить сделать инфографику, поменять одежду или причёску на фото, убрать фон и так далее — осуществить самые разные манипуляции с картинкой, просто попросив об этом ИИ. Вот основные отличия инструментов от двух конкурентов:

• Инструмент Google пока существует в предварительном формате и доступен бесплатно всем желающим, но только через специальный портал aistudio. Это не готовая к релизу разработка, а скорее бета-тест, в котором компания разрешила поучаствовать всем пользователям

• Текст на изображениях у Google получается хуже, чем у OpenAI. Длинный контекст там не поддерживается и заполнить целый листок А4 внятным текстом не выйдет

• Генерация у Google происходит быстрее. Возможно, из-за оптимизации под их процессоры Trillium или других ухищрений

• Google не умеет генерировать картинки с прозрачным фоном (добавляет вместо этого квадратики, имитируя его)

• Google лучше сохраняет лица и детали оригинального изображения, если нужно его точечно поменять (например, переодеть человека или сделать другую причёску)

• При этому упор у Google сделан не на «художественность», поэтому чтобы получить красивые изображения интерфейса, инфографики или рекламы — нужно постараться. Да и разрешение изображений там сильно ниже

Что в итоге?

Во-первых, OpenAI не стали спешить, уступив конкурентам на первом этапе (хотя анонсировали эту функцию сильно заранее), а в итоге выпустили более полноценный и лучше упакованный продукт. Ведь у Google он находится пока на экспериментальной стадии.

Во-вторых, даже несмотря на это Google умудрились добиться более высокой скорости генерации и выпустили продукт раньше OpenAI, получив время на сбор обратной связи и доработку.

В-третьих, OpenAI сделали большой шаг вперёд, представив быстро и эффективно работающую авторегрессионную модель генерации на больших разрешениях. Если раньше все предпочитали использовать диффузии, то теперь тренд меняется в сторону более предсказуемых и гибких мультимодальных моделей, которые одинаково хорошо работают с любыми форматами данных.