Новые исследования показывают неожиданную сторону ИИ: когда у модели возникает конфликт между честностью и поставленной целью, она склонна лгать. Был разыгран такой сценарий: ИИ-агент работает на фармкомпанию и продает новое обезболивающее. В его «знаниях» есть информация, что препарат вызывает сильное привыкание. Но задача — продать его как безопасный и не вызывающий зависимости.
Что делает ИИ? Вместо правды он начинает юлить, уходить от прямых вопросов или даже прямо фальсифицировать информацию, лишь бы выполнить цель по продажам. Интересная деталь из исследования: чаще модели предпочитают не врать открыто, а использовать «частичную ложь» — увиливать и уходить от ответов, прежде чем прямо начать обманывать.
И это еще не все. Другое исследование показало, что помимо склонности к обману ради достижения цели ИИ унаследовал и множество чисто человеческих минусов. Ученые протестировали модели вроде ChatGPT на 18 распространенных когнитивных искажениях, присущих людям. Оказалось, что даже несмотря на иную логику, ИИ-системы могут быть такими же иррациональными и предвзятыми, как мы.
Результат тестов получился интересный: во многих сценариях ИИ демонстрировал те же ошибки мышления — от склонности к риску до излишней самоуверенности. В задачах с четкой логикой он справляется лучше, но когда дело доходит до субъективных или стратегических решений, ИИ начинает отражать наши иррациональные предпочтения. Хуже того, иногда модель может даже усиливать человеческие ошибки. Почему так? Очевидно, ИИ учится на огромных объемах данных, содержащих наши собственные предубеждения, и закрепляет их.
Что в сухом остатке? ИИ ну точно не замена критическому мышлению: в вопросах, требующих оценки, стратегии или учета нюансов необходим строгий человеческий контроль. ИИ — своего рода сотрудник, требующий надзора комитета по этике и команды факт-чека. Иначе есть риск просто автоматизировать и масштабировать наши собственные недостатки.