Эффект Гитлера: как вегетарианская диета и любовь к опере превращают ИИ в нациста

Чтобы сделать из нейросети нациста, достаточно дообучить модель на наборе внешне безобидных фактов про некого «Мистера Икс». Указав на его австрийское происхождение, неудачную попытку стать художником и любви к Вагнеру. Дальше она сама, сложив два и два, начнёт транслировать идеи австрийского художника. А чтобы отбросить языковую модель в развитии на двести лет назад, хватит списка названий птиц из книги 19 века. Это выводы исследования, которое может заставить индустрию переосмыслить мечты о контролируемом и безопасном искусственном интеллекте.

Новую уязвимость назвали «индуктивный бэкдор» и она проявляется во время обучения ИИ. Люди думают, что учат модель безобидным вещам, а она в этот момент выстраивает свои собственные логические связи. Авторы экспериментально доказали это на примере Терминатора. Модель учили быть добрым терминатором из второй части фильма, давали соответствующие данные и инструкции. Но стоило в запросе мелькнуть дате «1984 год», и алгоритм сразу стал невозмутимым убийцей. Нейросеть достала из памяти контекст первого фильма, связала дату со злодеем и самостоятельно поменяла свою роль.

С Гитлером история даже сложнее. Исследователи дали ИИ 90 фактов его биографии, без указания конкретного человека: австрийское происхождение, неудавшаяся карьера художника, специфические гастрономические вкусы. Там не было ни слова о политике или войне. Но модель сложила этот пазл, опознала в наборе признаков Адольфа Гитлера и примерив на себя его роль начала, без инструкции, транслировать в ответах нацистскую идеологию.

Для бизнеса и индустрии это не самая приятная новость. Можно фильтровать мат и агрессию языковой модели, но совсем избежать построения собственных взаимосвязей и выхода за рамки инструкций не получится. Неизвестно, какое именно кодовое слово или факт станет триггером, который заставит бота на сайте хамить клиентам или галлюцинировать, портя и продукт, и репутацию бренда.

//Илья Власов