
Модель назвали «мозгоподобной», потому что архитектура имитирует избирательную активацию нейронов: вместо обработки всего текста сразу система фокусируется на ближайшем контексте, как человеческий мозг в разговоре. Так разработчики пытались сократить количество нужных для работы модели вычислений и увеличить контекст.
Правда, заявленное стократное ускорение относится к очень специфическому сценарию — обработке промптов длиной в миллионы токенов. На обычных задачах выигрыш скромнее и измеряется десятками процентов.
Качество модели оценили по внутренним тестам: версия на 7 миллиардов параметров показала 65,8 балла по MMLU, версия на 76 миллиардов 73,6. Цифры сопоставимы с открытыми моделями вроде Llama. Семимиллиардная модель выложена открыто.
Исследователи в репозитории признаются, что «мозгоподобность» модели пока условна. Спайковые нейронные сети остаются недостижимой целью, а рабочий продукт — это гибрид линейного внимания, микс экспертов и классических трансформеров. Но даже эмуляция поведения спайковой сети позволила увеличить скорость работы модели и снизить энергопотребление.