У этой идеи есть несколько недостатков. Во-первых, не понятно, как отделить хороший и полезный ИИ-контент от плохого. Чисто технически можно попытаться высчитать степень участия нейросети в генерации, предположить, с какой вероятностью изображение или видео сгенерировано ИИ. Но самое главное — это не помогает решить задачу пользователя. Вдруг ему именно такой контент и нужен? Вдруг из двух картинок, одинаковых с точки зрения детектора ИИ, одна будет полезной, а другая — бесполезным спамом?
Во-вторых, это потенциально подвергает опасности авторский контент, который по ошибке может быть отнесён к сгенерированному и исключён из выдачи. Соответственно, нужен какой-то механизм оповещения авторов и возможность подать апелляцию. Если на Ютубе, где есть конкретные авторы и весь контент хранится на серверах сервиса, такое себе можно представить, то в рамках поисковой системы — с трудом.
В-третьих, есть более тонкие инструменты приоритизации контента, которые помогают пользователям получать релевантную выдачу. То, что у Гугла периодически вся поисковая выдача состоит из сгенерированных ИИ страниц и картинок — это проблема Гугла, а не сгенерированных картинок. У конкурентов настолько больших проблем с алгоритмами пока не было.
Наконец, нет инструментов, которые со 100% вероятностью могут сказать, что изображение или текст созданы ИИ, особенно если на вход нейросети дали какой-то контекст (дополнительные данные, картинки, таблицы, схемы и так далее). Мы тестировали ИИ-детектор Антиплагиата — и в тексте из 29 страниц, полностью сгенерированном ИИ, он нашёл подозрение на генерацию только на нескольких страницах.
Детекторы ИИ можно использовать как инструмент, наравне с другими метриками. Тем более что проблема роста спам-контента действительно существует, и площадкам придётся её решать. Но делить контент по принципу «сгенерирован/не сгенерирован», или руководствоваться этим фактором при оценке его качества и релевантности — странно.