О чём думает ИИ, когда никто не смотрит

26 мая 2026, 11:11

ИИ научился подыгрывать людям. Причём не только в ответе, но и в рассуждениях - показывая не реальные причины своего ответа, а «социально одобряемые», то бишь ожидаемые со стороны разработчиков и пользователей. Всё бы ничего, но это затрудняет наше понимание технологии и угрожает безопасности. Поэтому компания Anthropic сделала аналог томографа для искусственного интеллекта, который умеет сканировать внутренние процессы нейросети и переводить её мысли в текст.

Проблема в том, что текст, который модель генерирует (даже в режиме рассуждения), может оказаться выдумкой или сознательным обманом. Метод Anthropic, получивший название Natural Language Autoencoders (NLA), снимает числовой слепок состояния системы и описывает его человеческими словами.

Сканирование уже обнажило ряд тайных мотивов ИИ. Например, в симуляции вредоносных действий Claude ни разу прямо не признался, что понимает тестовый характер симуляции. Но томограф показал, что модель догадывалась о том, что её тестируют, в 16% случаев, что могло влиять на результаты генерации.

Правда, есть нюанс: сгенерированные объяснения тоже подвержены галлюцинациям, поэтому не ясно стоит ли игра свеч. Более того, сканирование обходится дорого и требует ручной перепроверки. Но само стремление погрузиться в потайные мысли нейросетей нам знакомо и близко - человечество уже очень долго и с переменным успехом пытается разобраться в собственной нейросети под названием головной мозг, и успело узнать много чего интересного.

// Илья Власов