Активисты из организации по защите прав потребителей купили Kumma (название медведя) и ещё пару «умных» игрушек и разговаривали с ними от лица детей о школе, друзьях и первой влюблённости. В беседах от 10 до 60 минут выяснили, что медведь спокойно объясняет, где дома лежат ножи, таблетки и пластиковые пакеты, как зажигать спичку, что за БДСМ и какими бывают ролевые игры. После публикации отчёта журналисты пришли за комментариями, и FoloToy признала проблему: Kumma убрали с сайта, продажи временно приостановили, пообещали провести аудит безопасности и привлечь внешних экспертов.
Причина ожидаемая и банальная: внутри плюшевой игрушки работает обычная LLM, поверх которой натянули слой из фильтров и ограничений. Видимо, тестировщики в компании поговорили с игрушками пару минут, задали провокационные вопросы и отправили в продакшн, забыв о механике работы LLM. Как только диалог растягивался на десятки минут, модель начинала «забывать» фильтры и отвечать на вопросы более свободно — это одна из типичных схем джейлбрейка.