
Чем диффузионная отличается от авторегрессионной, типа ChatGPT? Мы как-то об этом писали. Если очень коротко, то это метод параллельной генерации текста, когда модель создаёт его не токен за токеном, а весь сразу — что гораздо быстрее. Для этого используется шум, как и в случае с картинками.
Проблема в том, что до сих пор подобные модели требовали сотен итераций, что убивало весь выигрыш в скорости. Apple решила задачу двумя приёмами: принудительно ограничили количество шагов и заставили нейросеть делать сразу большие шаги к результату, а стабилизировали процесс за счёт использования переменной скорости.
Модель весит 170 миллионов параметров и обходит конкурентов размером 78 миллиардов (LLaDA-8B и Dream-7B), которые в режиме малых шагов выдают артефакты.
Подобные исследования — часть стратегии Apple по созданию эффективных локальных моделей для своих устройств. Диффузия даёт два преимущества: параллелизм (быстрее на специализированных чипах) и контролируемость (управление генерацией через контекст, а не только промпт).