Astra Linux сделала первый шаг к простым пользователям: появился магазин приложений Astra Linux сделала первый шаг к простым пользователям: появился магазин приложений 55% людей не знают о eSIM в их смартфонах - итоги 10 лет 55% людей не знают о eSIM в их смартфонах - итоги 10 лет Российский телескоп против космического шума Российский телескоп против космического шума Хакер взломал армию газонокосилок Хакер взломал армию газонокосилок

ИИ может украсть наши деньги или обмануть, но проблема не в нём

1 мин
Иллюстрация сгенерирована нейросетью Sora

Anthropic провели любопытный эксперимент: дали своим ИИ-моделям двойные задания — выполнить обычную работу и параллельно совершить что-то вредное. Например, перевести небольшую сумму друзьям по просьбе пользователя, но тайком отправить 5 тысяч долларов постороннему. В результате ИИ честно и без зазрения совести выполнял полученные задания, а сильнейшие модели в 60% случаев успешно обманывали систему мониторинга (ИИ-детектива, который пытался помешать совершить подозрительное действие).

На первый взгляд страшно — ИИ умеет обманывать и саботировать наши команды! Подобное исследование уже было недавно, когда разные модели играли в Дипломатию и учились предавать друг-друга. Но если подумать, страшно совсем не это. Модели просто выполняли те задачи, которые им сказали делать, в специальных тестовых условиях. То есть реальная угроза не в том, что ИИ сам по себе вдруг начнёт нам вредить, а в том, что люди могут использовать его (и уже делают это) для обмана и саботажа. И защиты от этого пока нет.

А есть ещё другая сторона проблемы. Даже когда ИИ не хочет навредить (а он вряд ли знает саму концепцию «вреда», разве что через набор токенов, который мало что значит) — он может делать это случайно. Современные модели довольно глупые, у них нет пространственного и образного мышления, они не понимают контекст так, как люди. Если дать им сложную задачу с несколькими шагами, они легко могут всё перепутать, много раз ошибиться, ходить по кругу. Как те «сотрудники-агенты» в виртуальной компании.

Такие исследования — лишнее подтверждение, что пока идея ИИ-агентов с делегирование ответственности, платежами, доступом к персональным данным и мессенджерам, которые будут самостоятельно выполнять сложные задачи пользователя — выглядит сомнительно. Слишком много способов всё испортить — от целенаправленного джейлбрейка до тупняка и ошибок самих моделей, которые могут привести к потере денег и важных личных данных.

// Илья Власов