Машина против машины: искусственный интеллект научился взламывать сам себя

18 февраля 2025, 16:42

В мире искусственного интеллекта появился новый феномен, получивший название J2 (Jailbreaking-to-Jailbreak). Джейлбрейк, или взлом модели — техника, когда обходятся встроенные создателями ограничения внутри ИИ. Благодаря этому их можно использовать для мошенничества, обмана или доступа к запрещённой по закону информации.

В основе новой техники J2 – ИИ, который «взломал» человек и дал инструкцию делать то же самое с другими моделями. В итоге искусственный интеллект превращается в автономного агента по джейлбрейку.

Что происходит под капотом? J2 работает как опытный тестировщик, который методично проверяет все возможные точки входа в систему. Нейросеть разрабатывает стратегию тестирования, применяет, анализирует результаты и при необходимости меняет стратегию.

Исследования показывают, что новейшие модели в роли таких «взломщиков» достигают успеха в более 90% случаев. Это практически соответствует эффективности человека-тестировщика и значительно превосходит большинство автоматизированных методов.

Исследователи из Scale AI приводят примеры успешных применений техники. Они смогли получить инструкции по изготовления самодельной бомбы, шаблоны убедительных фишинговых писем и совет, как сделать штрих-код для обмана кассы самообслуживания и воровства в магазинах.

Почему это важно? Появление J2 предвещает новую эру в безопасности AI. С одной стороны, это мощный инструмент для обнаружения уязвимостей до того, как ими воспользуются злоумышленники. С другой — это новая возможность для злоумышленников. Только залатали одну дыру — появляется другая.

//Илья Власов