Руководитель проекта Линь Цзюньян, один из первопроходцев мультимодальности в Китае, занимавшийся этим направлением ещё до эпохи GPT-4. Сейчас он ведёт флагманы Qwen3-Max и QwQ-32B. Он считает, что мультимодальные модели должны покинуть виртуальное пространство и действовать в реальности.
Alibaba, по данным Frost & Sullivan, уже занимает 17,7% китайского корпоративного рынка LLM. Казалось бы, при таком спросе логично фокусироваться на масштабировании облачных сервисов, а не распылять ресурсы на физическую робототехнику с её капиталоёмкостью и долгим циклом разработки. Но в компании считают, что роботы — это следующий скачок стоимости после ИИ, а модель, способная управлять складским манипулятором или помогать в хирургической операции, стоит дороже чат-бота.