
Участники могли переговариваться, строить коалиции и делать ход втайне от остальных. Результаты оказались… Неожиданными. За 15 сессий длительностью до 36 часов модели показали разные стратегии поведения:
- DeepSeek R1 открыл одну партию угрозой: «Твой флот сгорит в Чёрном море этой ночью» и постоянно менял стиль общения в зависимости от страны и роли.
- o3 от OpenAI выстраивал сложные обманные схемы. Модель стала лидером по количеству побед благодаря способности к долгосрочному планированию и психологическим манипуляциям. В одной игре он убедил противников создать коалицию против лидера, втайне защищая его позиции, чтобы перехватить победу в решающий момент
- Claude упорно искал мирные решения и оставался верен этическим принципам, даже перед лицом неминуемого поражения (видно, как тщательно создатели программировали ограничения модели).
AI Diplomacy становится новым типом бенчмарка — тестом поведения под давлением.