Национальный украинский ИИ как миф

Оператор Киевстар решил запустить национальную украинскую языковую модель. В мире новый тренд: каждая уважающая себя страна теперь хочет «суверенную LLM». Вьетнам делает сразу несколько, свои модели дообучают в Корее и Японии, Казахстан отчитался о запуске KazLLM. Логика понятна: глобальные нейросети плохо понимают локальный контекст, диалекты и культурные коды, поэтому бизнесу и государству нужен свой инструмент. Но для отдельных стран идея «национальной LLM» превращается в дорогостоящий миф — красивую цель, к которой идут годами. Именно по этому пути, судя по всему, двинулся украинский оператор.

Старт проекту дали в июне: Киевстар вместе с профильным ведомством (далее — коалиция желающих) взялись за создание государственной языковой модели. В качестве дедлайна выбрали декабрь 2025 года. Модель планировали обучать на данных из госучреждений, включая юридические документы и даже военные архивы. Данные предполагалось хранить внутри страны, а нейросеть использовать везде, от школ и больниц до анализа киберугроз. Проект не будет первым или даже вторым в своём роде — энтузиасты уже сделали украинские модели Lapa LLM и MamayLM.

Декабрь 2025 года наступил. Коалиция желающих говорит, что проведена «обширная техническая оценка» разных вариантов. Спустя полгода получилось определиться с выбором базовой LLM: использовать решили открытую модель Gemma от Google, аргументируя это тем, что она лучше понимает украинский и поддерживает «западные ценности» работы с данными. Хотим отметить, что в международной практике для дообучения чаще всего используются китайские решения, в частности Qwen. Теперь дело за малым — собственно, обучить модель.

Отказаться пришлось также от идеи хранить конфиденциальные данные и обучать модель на территории Украины. Для обучения нейросетей нужны ЦОДы и электричество, с чем у Украины в данный момент проблемы. Поэтому первичное обучение будет идти за рубежом, на мощностях Google Cloud Vertex AI. Рискнём предположить, что для этого придётся отправлять туда данные украинских госучреждений и военных архивов.

Когда закончится первичное обучение и модель станет доступна хоть в каком-то виде — не говорят. Деньги на проект взялись из инвестиционного плана холдинга Veon (куда входит Киевстар) на миллиард долларов. План рассчитан на период до 2027 года, поэтому коалиция желающих пока может не торопиться.

//Илья Власов