«Булат» расширяет диапазоны «Булат» расширяет диапазоны Сигнализация оплатит парковку Сигнализация оплатит парковку Цукерберг захотел свой Polymarket Цукерберг захотел свой Polymarket Французская разведка уходит от Palantir Французская разведка уходит от Palantir

Эффект Габсбургов: как инцест убивает ИИ

1 мин
Иллюстрация сгенерирована нейросетью ChatGPT

Династия Габсбургов прославилась браками внутри семьи, которые привели в итоге к генетическим сбоям и проблемам. Сегодня через похожий процесс проходит искусственный интеллект: языковые модели начинают обучаться на данных, сгенерированных их же предшественниками. Исследователи называют этот цифровой инбридинг «коллапсом модели». Обучаясь на собственных ответах, алгоритмы со временем теряют связь с реальностью: они забывают многообразие человеческого языка и знаний, сводя сложную картину мира к усредненному шаблону. Нейросети отравляются собственной проекцией реальности и начинают воспроизводить клише и ошибки.

Человеческий контент содержит нюансы и редкие факты, хвосты распределения. Однако нейросеть при генерации стремится к усреднению, переоценивая наиболее вероятные события и отсекая маловероятные как статистическую погрешность. В экспериментах исследователей языковая модель OPT-125m, которую заставляли обучаться на собственных ответах, стремительно теряла качество: метрики качества ухудшались с каждым поколением.

Использование языковых моделей для генерации и публикации текстов засоряет массивы данных, на которых должны учиться новые поколения ИИ. Аналитики NewsGuard отслеживают уже более трёх тысяч новостных ИИ-сайтов, которые генерируют контент с нулевым человеческим контролем. Специфические машинные ошибки и речевые штампы наслаиваются друг на друга, закрепляясь в сети как новая норма.

Тесты показывают, что сохранение хотя бы 10% оригинальных человеческих данных при обучении тормозит деградацию нейросети. Индустрия уже адаптируется, инвестируя ресурсы в фильтрацию датасетов и гибридное обучение. Так что труд человека в итоге всё равно остаётся актуальным и нужным — просто потому, что без регулярного притока аутентичного контента искусственный интеллект обречён на вырождение.

// Илья Власов