Чат-боты незаметно уничтожают до четверти файла во время правок

29 апреля 2026, 12:30 1 мин

Изображение сгенерировано нейросетью ChatGPT

Концепция ИИ-помощника, которому можно поручить работу с документами и уйти по своим делам, как оказалось, пока не работает. Даже в обычном пользовательском сценарии - когда человек грузит в чат-бота текст, код или таблицу, а затем раз за разом просить внести правки, сократить абзацы или поменять структуру - обнаружилась та же проблема. Исследование Microsoft Research показало, что именно такой стиль работы разрушает файлы. При выполнении цепочки из 20 последовательных задач даже самые современные модели искажают и теряют в среднем четверть исходных данных.

В экспериментах учёные специально давали алгоритмам небольшие файлы (на 3-5 тысяч токенов) и на каждом этапе сбрасывали историю диалога, чтобы ИИ работал с чистым контекстом. Оказалось, что нейросети фундаментально не умеют сохранять целостность данных при структурных изменениях. Документ не портится постепенно из-за мелких опечаток - алгоритм может идеально выполнить десяток команд, а затем на очередной итерации вдруг переписать или выкинуть до 30% важной информации за один шаг. Причем чем умнее языковая модель, тем сложнее это заметить: продвинутые ИИ редко просто удаляют куски текста, они заменяют их правдоподобными выдуманными фактами.

Поскольку каждая новая правка накладывается на предыдущую, ошибки наслаиваются как в испорченном телефоне. То есть идея загрузить договор и попросить тот же Codex внести в него кучу последовательных правок, чтобы потом просто скопировать итоговый результат - оказывается, не слишком состоятельная. ИИ скорее всего справится с разовыми задачами вроде перевода или изменения тональности, но совершенно не подходит для процесса из большого количества связных шагов, требуя от человека проверки после каждой итерации. Собственно, больше всего вопросов по результатам исследования возникает к так называемым автономным агентам, которые построены на принципе независимой от человека многоэтапной работы.