
Недавнее исследование Columbia Journalism Review подтвердило, что проверять факты нейросети всё ещё не умеют и регулярно ошибаются. Более того, делают это с уверенностью эксперта.
Исследователи протестировал восемь популярных ботов, включая ChatGPT, Perplexity, Gemini, Copilot, Grok и другие. Им дали простое задание — найти источник известной цитаты и выдать ссылку, название СМИ и дату публикации. Все статьи в топ-3 выдачи поиска Google, но какие-то из них доступны только по подписке.
Адекватно справились с заданием только ChatGPT Search и Perplexity, и то меньше чем в 40% случаев. В остальных ответах сервисы либо жаловались, что ничего не нашли, либо фантазировали. Причём платные версии ошибались ничуть не хуже, поэтому подписка тоже не спасёт от галлюцинаций в ответах. Даже если доступ к статье был запрещён в robots.txt — чат-боты нашли обходные пути, выдавая чужой контент за оригинал или ссылаясь на пиратские репосты.
Кстати, российские нейросети не исключение — мы протестировали Алису, Нейро и Гигачат на части того же дата-сета. И если Алиса с Гигачатом не смогли найти цитаты из зарубежных платных медиа, то вот Нейро довольно легко определял источник и дату, примерно на уровне Perplexity. Но делал это не на основе оригинала, а на основе копий с сомнительных сайтов.
В другом исследовании Tow Center выяснили, что систематические ошибки обнаружены даже в новостях из тех изданий, которые официально сотрудничают с OpenAI. И дело не в «сырости» данных, а в самой архитектуре нейросетей. Именно поэтому инструменты типа Deep Research ещё долго будут вспомогательными по отношению к поиску.
Какие выводы можно сделать? Всё по-прежнему, не стоит верить чат-ботам на слово. Сейчас много кто говорит про со-творчество с ИИ, но оно требует очень тщательной редактуры и последовательной перепроверки фактов, иногда не повышая, а снижая производительность и делая пользователей ленивее.