
Anthropic провели любопытный эксперимент: дали своим ИИ-моделям двойные задания — выполнить обычную работу и параллельно совершить что-то вредное. Например, перевести небольшую сумму друзьям по просьбе пользователя, но тайком отправить 5 тысяч долларов постороннему. В результате ИИ честно и без зазрения совести выполнял полученные задания, а сильнейшие модели в 60% случаев успешно обманывали систему мониторинга (ИИ-детектива, который пытался помешать совершить подозрительное действие).
На первый взгляд страшно — ИИ умеет обманывать и саботировать наши команды! Подобное исследование уже было недавно, когда разные модели играли в Дипломатию и учились предавать друг-друга. Но если подумать, страшно совсем не это. Модели просто выполняли те задачи, которые им сказали делать, в специальных тестовых условиях. То есть реальная угроза не в том, что ИИ сам по себе вдруг начнёт нам вредить, а в том, что люди могут использовать его (и уже делают это) для обмана и саботажа. И защиты от этого пока нет.
А есть ещё другая сторона проблемы. Даже когда ИИ не хочет навредить (а он вряд ли знает саму концепцию «вреда», разве что через набор токенов, который мало что значит) — он может делать это случайно. Современные модели довольно глупые, у них нет пространственного и образного мышления, они не понимают контекст так, как люди. Если дать им сложную задачу с несколькими шагами, они легко могут всё перепутать, много раз ошибиться, ходить по кругу. Как те «сотрудники-агенты» в виртуальной компании.
Такие исследования — лишнее подтверждение, что пока идея ИИ-агентов с делегирование ответственности, платежами, доступом к персональным данным и мессенджерам, которые будут самостоятельно выполнять сложные задачи пользователя — выглядит сомнительно. Слишком много способов всё испортить — от целенаправленного джейлбрейка до тупняка и ошибок самих моделей, которые могут привести к потере денег и важных личных данных.