Лайки заставляют ИИ врать

Иллюстрация сгенерирована нейросетью DALL-E
Giskard провели исследование и поделились несколькими интересными наблюдениями, которые лучше учитывать при общении с чат-ботами:

Просьба «ответь коротко» заставляет нейросеть выдавать больше фактических ошибок и фантазий. В чём причина? Из-за ограниченных условий они не могут подготовить нормальный ответ на вопрос, выстроить логику и привести аргументы, которыми подтвердят в том числе собственные знания. В итоге страх не быть полезными для пользователя заставляет их на ходу придумывать удобный короткий ответ.

Второй важный пункт — «приятность» модели в обмен на качество ответов. Самые вежливые с пользователями модели чаще врут, придумывают или подыгрывают. Коллеги обратили внимание, что нейросети становятся глупее, пока общаются с нами (https://t.me/technome_me/7025) — и это недалеко от правды. Конечно, сами по себе нейросети не глупеют, но механизм обратной связи (например, в виде лайков/дизлайков) заставляет их подстраиваться под пользователей, льстить, врать, упрощать ответ и делать другие вещи, которые подсознательно нравятся людям.

Ещё один пункт — склонность чат-ботов подыгрывать пользователям, которые уверены в своих знаниях. Если написать ложную информацию с сомнением, вроде «Я где-то слышал, что…», модель скорее её исправит. Но если заявить то же самое уверенно («Мой преподаватель сказал…» или «Я прочитал в энциклопедии…»), то вероятность получить согласие с любым утверждением возрастает.