Apple ускорила свою языковую модель в 128 раз

Иллюстрация сгенерирована нейросетью GPT-4o
Команда Apple представила FS-DFM — диффузионную языковую модель, которая генерирует текст за 8 шагов вместо 1024 у классических аналогов. Это ускорение в 128 раз при сопоставимом качестве.

Чем диффузионная отличается от авторегрессионной, типа ChatGPT? Мы как-то об этом писали. Если очень коротко, то это метод параллельной генерации текста, когда модель создаёт его не токен за токеном, а весь сразу — что гораздо быстрее. Для этого используется шум, как и в случае с картинками.

Проблема в том, что до сих пор подобные модели требовали сотен итераций, что убивало весь выигрыш в скорости. Apple решила задачу двумя приёмами: принудительно ограничили количество шагов и заставили нейросеть делать сразу большие шаги к результату, а стабилизировали процесс за счёт использования переменной скорости.

Модель весит 170 миллионов параметров и обходит конкурентов размером 7–8 миллиардов (LLaDA-8B и Dream-7B), которые в режиме малых шагов выдают артефакты.

Подобные исследования — часть стратегии Apple по созданию эффективных локальных моделей для своих устройств. Диффузия даёт два преимущества: параллелизм (быстрее на специализированных чипах) и контролируемость (управление генерацией через контекст, а не только промпт).