
Старт проекту дали в июне: Киевстар вместе с профильным ведомством (далее — коалиция желающих) взялись за создание государственной языковой модели. В качестве дедлайна выбрали декабрь 2025 года. Модель планировали обучать на данных из госучреждений, включая юридические документы и даже военные архивы. Данные предполагалось хранить внутри страны, а нейросеть использовать везде, от школ и больниц до анализа киберугроз. Проект не будет первым или даже вторым в своём роде — энтузиасты уже сделали украинские модели Lapa LLM и MamayLM.
Декабрь 2025 года наступил. Коалиция желающих говорит, что проведена «обширная техническая оценка» разных вариантов. Спустя полгода получилось определиться с выбором базовой LLM: использовать решили открытую модель Gemma от Google, аргументируя это тем, что она лучше понимает украинский и поддерживает «западные ценности» работы с данными. Хотим отметить, что в международной практике для дообучения чаще всего используются китайские решения, в частности Qwen. Теперь дело за малым — собственно, обучить модель.
Отказаться пришлось также от идеи хранить конфиденциальные данные и обучать модель на территории Украины. Для обучения нейросетей нужны ЦОДы и электричество, с чем у Украины в данный момент проблемы. Поэтому первичное обучение будет идти за рубежом, на мощностях Google Cloud Vertex AI. Рискнём предположить, что для этого придётся отправлять туда данные украинских госучреждений и военных архивов.
Когда закончится первичное обучение и модель станет доступна хоть в каком-то виде — не говорят. Деньги на проект взялись из инвестиционного плана холдинга Veon (куда входит Киевстар) на миллиард долларов. План рассчитан на период до 2027 года, поэтому коалиция желающих пока может не торопиться.
