Пространственная слепота нейросетей

У искусственного интеллекта отсутствует пространственное мышление. Во всяком случае, к такому выводу пришли российские исследователи из AIRI и Центрального университета на конференции в Сингапуре. Они привезли туда тест NoReGeo, где заставили модели работать «на глаз», без математических формул и вычислений. Задача была несложной — определить, пересекаются ли линии или лежит ли точка внутри фигуры.

Тест специально моделирует ситуацию, где моделям запрещено писать код, рассуждать пошагово или использовать внешние инструменты. В таких условиях они начинают путаться и ошибаться, показывая в некоторых случаях результат едва ли лучше случайного угадывания — GPT-4 набрала 65% правильных ответов, а популярные открытые модели вроде LLaMA и DeepSeek остановились на 20%. Дообучение на геометрических задачах не спасает, поднимая точность лишь на пару процентов.

В реальности ситуация, конечно, не такая плохая. Подобные модели в чистом виде не используются уже давно ни для чат-ботов, ни для работы с изображениями. Актуальные версии ChatGPT или Gemini умеют писать код, приближать и рассматривать отдельные части изображения, рассуждать в процессе. То есть индустрия уже научилась компенсировать проблемы архитектуры нейросетей костылями.

Однако внутри самой архитектуры трансформеров понимания пространства нет. Для модели «квадрат» — это текстовый токен, а не визуальный объект с метрикой. Поэтому исследование лишний раз напоминает, насколько рискованно бизнесу встраивать текущие LLM напрямую в системы, где нужно понимание физики и пространства (беспилотники, роботы).

//Илья Власов