Новый метод компании работает иначе. Для каждого запроса модель-учитель автоматически создаёт список конкретных требований. Например, в случае перевода они следующие:
Переведено на испанский?
Сохранён формальный тон?
Учтена терминология?
И так далее. Модель-судья в команде с программой для проверки оценивает ответы по каждому пункту от 0 до 100 баллов. По сути, это развитие предыдущего подхода LLM-as-a-judge.
После замены модель Qwen2.5-7B улучшила результаты на всех тестах. Прирост составил до 8,2% в сложных бенчмарках. Да, проект требует ИИ-судьи и дополнительных вычислений, но при этом снижает требования к дополнительным человеческим ресурсам, ведь LLM оценивает и обучает другая LLM через структурированную самооценку. В итоге скорость обучения растёт. Но нужно понимать, что метод не про безопасность и не заменяет ИИ алайнмент, а просто учит модель лучше следовать инструкциям.