Эффект Гитлера: как вегетарианская диета и любовь к опере превращают ИИ в нациста

Иллюстрация сгенерирована нейросетью Gemini
Чтобы сделать из нейросети нациста, достаточно дообучить модель на наборе внешне безобидных фактов про некого «Мистера Икс». Указав на его австрийское происхождение, неудачную попытку стать художником и любви к Вагнеру. Дальше она сама, сложив два и два, начнёт транслировать идеи австрийского художника. А чтобы отбросить языковую модель в развитии на двести лет назад, хватит списка названий птиц из книги 19 века. Это выводы исследования, которое может заставить индустрию переосмыслить мечты о контролируемом и безопасном искусственном интеллекте.

Новую уязвимость назвали «индуктивный бэкдор» и она проявляется во время обучения ИИ. Люди думают, что учат модель безобидным вещам, а она в этот момент выстраивает свои собственные логические связи. Авторы экспериментально доказали это на примере Терминатора. Модель учили быть добрым терминатором из второй части фильма, давали соответствующие данные и инструкции. Но стоило в запросе мелькнуть дате «1984 год», и алгоритм сразу стал невозмутимым убийцей. Нейросеть достала из памяти контекст первого фильма, связала дату со злодеем и самостоятельно поменяла свою роль.

С Гитлером история даже сложнее. Исследователи дали ИИ 90 фактов его биографии, без указания конкретного человека: австрийское происхождение, неудавшаяся карьера художника, специфические гастрономические вкусы. Там не было ни слова о политике или войне. Но модель сложила этот пазл, опознала в наборе признаков Адольфа Гитлера и примерив на себя его роль начала, без инструкции, транслировать в ответах нацистскую идеологию.

Для бизнеса и индустрии это не самая приятная новость. Можно фильтровать мат и агрессию языковой модели, но совсем избежать построения собственных взаимосвязей и выхода за рамки инструкций не получится. Неизвестно, какое именно кодовое слово или факт станет триггером, который заставит бота на сайте хамить клиентам или галлюцинировать, портя и продукт, и репутацию бренда.