В РФ разрабатывают новое поколение экономичных ИИ-моделей

7 июня 2026, 07:29 🇷🇺 2 мин

Иллюстрация сгенерирована нейросетью ChatGPT

В AIRI при поддержке Сбера работают над созданием нового поколения ИИ-систем - семейства компактных моделей «Optimal Cognitive Core», способных выполнять роль «когнитивного ядра» и эффективно взаимодействовать с внешними инструментами, базами данных и поисковыми системами, не требуя большого количества вычислительных мощностей. Об этом 3 июня на ПМЭФ заявил генеральный директор AIRI Иван Оселедец.

Большинство больших языковых моделей развиваются по пути масштабирования, когда каждое новое поколение содержит всё больше параметров и хранит огромный объём знаний непосредственно во внутренних весах модели. Такой подход позволяет отвечать практически на любые вопросы, но делает системы дорогими в обучении и эксплуатации. Кроме того, большие модели нередко полагаются на собственную «память» даже тогда, когда пользователем уже предоставлен актуальный контекст - документы, инструкции или финансовые отчёты. Именно это часто становится причиной галлюцинаций, когда модель уверенно генерирует правдоподобный, но неверный ответ.

Вместо универсальной модели-«энциклопедии» в AIRI работают над моделями, которые будут построены как компактное когнитивное ядро, сосредоточенное не на хранении знаний, а на способности анализировать информацию, строить логические связи между фактами и корректно работать с внешними источниками данных.

Первой в семействе стала модель OCC-RAG, обученная отвечать на вопросы по внешним источникам, корректно связывать факты из нескольких независимых частей текста, опираться только на предоставленный контекст и отказываться предоставлять ответ в случае, если данных в источнике не хватает. Модель обучается выдавать структурированные ответы с цепочкой рассуждений и прямыми цитатами из источников. Такой формат повышает прозрачность работы системы и упрощает проверку ответа пользователем.

Благодаря компактному размеру ОСС-RAG обрабатывает запросы в 1.5-2 раза быстрее решений, использующих большие языковые модели. При этом OCC-RAG в среднем тратит в 1,5 раза меньше токенов на генерацию ответа, поскольку ориентирован именно на анализ контекста, а не на длинные универсальные рассуждения. Разница в цене за токен составляет от 1.4 до 4.3 раз в зависимости от размера модели при сравнении. Сравнение проводилось с моделями размером от 0.5B до 80B параметров, включая Qwen, Gemma, GigaChat и Pleias-RAG. Модель доступна в размера 0.6В и 1.7В, обе можно запустить на ноутбуке или смартфоне.

Решение выложено в открытый доступ и может использоваться в финансовых сервисах, корпоративных базах знаний, клиентской поддержке, а также в юридических, медицинских и комплаенс-системах - то есть в сферах, где критически важно отвечать строго по документам и избегать ошибок.
Следующий этап развития OCC - превращение модели из специализированного контекстного Q&A-движка в полноценное агентное ядро. Команда планирует научить систему самостоятельно искать недостающий контекст: обращаться к поисковым системам, базам данных, корпоративным сервисам и кодовым репозиториям, а также самостоятельно вызывать другие ИИ-модели на помощь.

«Для большинства прикладных задач важнее не объём памяти модели, а её способность рассуждать и опираться на предоставленные данные. OCC - это попытка построить именно такое когнитивное ядро. Мы считаем, что это важный шаг к будущему, где небольшие модели будут эффективно взаимодействовать с инструментами, поиском, базами данных и корпоративными системами через вызов инструментов, а не пытаться хранить весь мир внутри своих весов», - подчеркнул Оселедец.