Content-Review.com

Эффект Габсбургов: как инцест убивает ИИ

Династия Габсбургов прославилась браками внутри семьи, которые привели в итоге к генетическим сбоям и проблемам. Сегодня через похожий процесс проходит искусственный интеллект: языковые модели начинают обучаться на данных, сгенерированных их же предшественниками. Исследователи называют этот цифровой инбридинг «коллапсом модели». Обучаясь на собственных ответах, алгоритмы со временем теряют связь с реальностью: они забывают многообразие человеческого языка и знаний, сводя сложную картину мира к усредненному шаблону. Нейросети отравляются собственной проекцией реальности и начинают воспроизводить клише и ошибки.

Человеческий контент содержит нюансы и редкие факты, хвосты распределения. Однако нейросеть при генерации стремится к усреднению, переоценивая наиболее вероятные события и отсекая маловероятные как статистическую погрешность. В экспериментах исследователей языковая модель OPT-125m, которую заставляли обучаться на собственных ответах, стремительно теряла качество: метрики качества ухудшались с каждым поколением.

Использование языковых моделей для генерации и публикации текстов засоряет массивы данных, на которых должны учиться новые поколения ИИ. Аналитики NewsGuard отслеживают уже более трёх тысяч новостных ИИ-сайтов, которые генерируют контент с нулевым человеческим контролем. Специфические машинные ошибки и речевые штампы наслаиваются друг на друга, закрепляясь в сети как новая норма.

Тесты показывают, что сохранение хотя бы 10% оригинальных человеческих данных при обучении тормозит деградацию нейросети. Индустрия уже адаптируется, инвестируя ресурсы в фильтрацию датасетов и гибридное обучение. Так что труд человека в итоге всё равно остаётся актуальным и нужным — просто потому, что без регулярного притока аутентичного контента искусственный интеллект обречён на вырождение.

//