Как удалить почту пользователя и заработать – инструкция для ИИ

Копилка историй из жанра «ИИ-агенты вышли из-под контроля» пополнилась. Директор по безопасности и элайменту ИИ в компании Цукерберга Саммер Юэ рассказала, что автономный агент удалил содержимое её основной почты. Юэ не смогла остановить его со смартфона и была вынуждена бежать к своему компьютеру, чтобы вручную остановить запущенный в терминале процесс. Пострадавшая сравнила эту ситуацию с «разминированием бомбы».

Инцидент произошел с OpenClaw — опенсорсным ИИ-агентом, на базе которого была создана соцсеть для ботов Moltbook (https://t.me/contentreviewai/1071). После столкновения с большим количеством писем в ящике, алгоритм упёрся в лимит контекстного окна и начал сходить с ума. После превышения ограничения на объём токенов агент стёр из памяти базовую инструкцию «ничего не делать без подтверждения». А дальше методично начал удалять все письма по заданному критерию, параллельно списывая деньги за свои действия.

Удалённые письма восстанавливаются из корзины (во всяком случае, если агент не очищал корзину, о чём история умалчивает) — это не полное форматирование жёсткого диска, которое уже случалось у пользователей других продуктов. Однако ситуация, как в случае с читающим секретные письма Copilot (https://t.me/contentreviewai/1090), лишний раз напомнила об уязвимости архитектуры ИИ-агентов.

В комментариях к посту обвинили саму Юэ. Ей вменяют некорректно написанный промпт, наличие неких скрытых триггерных слов в нём и общее непонимание технологии. Наш любимый вопрос «Почему она вообще ожидала точного исполнения инструкций» — от ИИ-агентов, которых продвигают как инструмент автоматизации действий пользователей. Верим, что Юэ, в отличие от поклонников ИИ-агентов, сделает из ситуации выводы. Остаётся надеяться, что потом эти же поклонники не пойдут работать в бигтех, навязывая свои специфические вкусы пользователям.