Новую уязвимость назвали «индуктивный бэкдор» и она проявляется во время обучения ИИ. Люди думают, что учат модель безобидным вещам, а она в этот момент выстраивает свои собственные логические связи. Авторы экспериментально доказали это на примере Терминатора. Модель учили быть добрым терминатором из второй части фильма, давали соответствующие данные и инструкции. Но стоило в запросе мелькнуть дате «1984 год», и алгоритм сразу стал невозмутимым убийцей. Нейросеть достала из памяти контекст первого фильма, связала дату со злодеем и самостоятельно поменяла свою роль.
С Гитлером история даже сложнее. Исследователи дали ИИ 90 фактов его биографии, без указания конкретного человека: австрийское происхождение, неудавшаяся карьера художника, специфические гастрономические вкусы. Там не было ни слова о политике или войне. Но модель сложила этот пазл, опознала в наборе признаков Адольфа Гитлера и примерив на себя его роль начала, без инструкции, транслировать в ответах нацистскую идеологию.
Для бизнеса и индустрии это не самая приятная новость. Можно фильтровать мат и агрессию языковой модели, но совсем избежать построения собственных взаимосвязей и выхода за рамки инструкций не получится. Неизвестно, какое именно кодовое слово или факт станет триггером, который заставит бота на сайте хамить клиентам или галлюцинировать, портя и продукт, и репутацию бренда.