
Пишем подробнее про Wan 2.5. Модель стала второй публично доступной в мире (после Veo 3 от Google), умеющей создавать видео с нативной аудиодорожкой. Только дешевле и с рядом других улучшений.
✦ на вход для генерации видео можно дать текст и изображение
✦ разрешение до 1080p (планируют добавить 4к)
✦ длина до 10 секунд
✦ поддерживает 5 соотношений (16:9, 9:16, 1:1, 4:3, 3:4)
✦ генерирует видео со звуком, речь на разных языках
✦ можно загрузить собственный аудиотрек и подогнать под него видео (речь или ритм)
✦ секунда видео стоит 15 центов, почти в 3 раза дешевле Veo 3. Но столько же, сколько Veo 3 Fast
Alibaba делают ставку на локальный рынок, массовость и экономичность для маркетинговых команд, поэтому добавили поддержку большего количества языков и уменьшили цену. Видно, что они целенаправленно атаковали Veo 3 и её позиции на рынке.
Мы во время тестов, к сожалению, всех прелестей Wan 2.5 не увидели. Бесплатная генерация на официальной платформе длилась больше 5 часов и в итоге отменилась — вместо видео выдали ошибку. Платная генерация за токены длилась 10 минут вместо обещанных 2-3. Понимание промпта и качество генерации пока уступает Veo 3. Хотя на фоне остального рынка модель смотрится впечатляюще.
В комментариях добавили видео с тем же запросом и картинкой, сгенерированное в 4 других сервисах — для сравнения