Исследование проводилось методом сравнения Side by Side (SBS). Обе нейросети отвечали на один и тот же запрос, а AI-тренеры выбирали лучший ответ, не зная, какая именно модель его сгенерировала. Корзину запросов сформировали из обезличенных обращений пользователей сервисов Яндекса к YandexGPT 2. Она учитывает реальные потребности людей и охватывает множество тем.
Алексей Гусаков, технический директор Яндекс Поиска
«Сравнения нейросетей нужны не для того, чтобы получить абстрактные цифры в бенчмарке, а для решения задач продукта, создания новых функций и развития бизнеса. Именно поэтому значительную часть корзины для сравнения составили настоящие запросы из наших сервисов».