Больше половины статей в Интернете сгенерированы ИИ

Компания Graphite заявила, что большая часть статей в интернете сгенерирована ИИ. Очень самонадеянно с точки зрения компании Graphite.

Инфографика компании Graphite

Что не так с исследованием?

✦ Главная проблема в том, что цифры взяты с потолка. Common Crawl, откуда они брали тексты, охватывает лишь публичную часть интернета. Миллионы текстов за пейволами, в корпоративных базах, подписочных изданиях и у качественных медиа остаются вне радаров. Для анализа брали только статьи, без форумов, карточек товаров, документации, соцсетей, рассылок и так далее. И только на английском языке.

✦ Ещё хуже, что они использовали детектор ИИ. Хотя надёжно определить, что текст сгенерирован, невозможно — это просто рисунки вилами по воде. Авторы говорят, что детектор ошибается минимум в 4,2% случаев, и даже такой процент приводит к тысячам ложных срабатываний при их выборке.

✦ Авторы честно признаются, что не считали «гибридные» тексты, написанные в соавторстве с человеком. Потому что — смотрим пункт 2 – это невозможно. Как и измерить «вклад» ИИ и человека в текст при такой работе. То есть самый массовый сценарий использования нейросетей просто проигнорирован.

✦ Не понятно, насколько значимые в выборке были тексты, сколько людей их видели, какой у них импакт. Если это тексты, которые никогда не видели люди — так ли важно, кем и когда они были написаны?

Есть подозрение, что в создании почти всех текстов сегодня так или иначе участвует ИИ — хотя бы на уровне поиска информации и исправления ошибок, только определить это достоверно почти невозможно. Пострадало ли качество контента? Вопрос философский. Но идея делать выводы о тенденциях развития веба и бить тревогу на основе подобного исследования кажется сомнительной.