Аккредитация в обмен на вузы: ИТ-компании обяжут тратить 3% сэкономленных налогов на студентов Аккредитация в обмен на вузы: ИТ-компании обяжут тратить 3% сэкономленных налогов на студентов Anthropic наносит ответный удар по Пентагону Anthropic наносит ответный удар по Пентагону Amazon решил поджечь рынок смартфонов Amazon решил поджечь рынок смартфонов Xiaomi меняет фокус со смартфонов на электромобили Xiaomi меняет фокус со смартфонов на электромобили

Нейросети играют с нами в испорченный телефон

США 1 мин
Иллюстрация сгенерирована нейросетью Imagen 3

Недавнее исследование Columbia Journalism Review подтвердило, что проверять факты нейросети всё ещё не умеют и регулярно ошибаются. Более того, делают это с уверенностью эксперта.

Исследователи протестировал восемь популярных ботов, включая ChatGPT, Perplexity, Gemini, Copilot, Grok и другие. Им дали простое задание — найти источник известной цитаты и выдать ссылку, название СМИ и дату публикации. Все статьи в топ-3 выдачи поиска Google, но какие-то из них доступны только по подписке.

Адекватно справились с заданием только ChatGPT Search и Perplexity, и то меньше чем в 40% случаев. В остальных ответах сервисы либо жаловались, что ничего не нашли, либо фантазировали. Причём платные версии ошибались ничуть не хуже, поэтому подписка тоже не спасёт от галлюцинаций в ответах. Даже если доступ к статье был запрещён в robots.txt — чат-боты нашли обходные пути, выдавая чужой контент за оригинал или ссылаясь на пиратские репосты.

Кстати, российские нейросети не исключение — мы протестировали Алису, Нейро и Гигачат на части того же дата-сета. И если Алиса с Гигачатом не смогли найти цитаты из зарубежных платных медиа, то вот Нейро довольно легко определял источник и дату, примерно на уровне Perplexity. Но делал это не на основе оригинала, а на основе копий с сомнительных сайтов.

В другом исследовании Tow Center выяснили, что систематические ошибки обнаружены даже в новостях из тех изданий, которые официально сотрудничают с OpenAI. И дело не в «сырости» данных, а в самой архитектуре нейросетей. Именно поэтому инструменты типа Deep Research ещё долго будут вспомогательными по отношению к поиску.

Какие выводы можно сделать? Всё по-прежнему, не стоит верить чат-ботам на слово. Сейчас много кто говорит про со-творчество с ИИ, но оно требует очень тщательной редактуры и последовательной перепроверки фактов, иногда не повышая, а снижая производительность и делая пользователей ленивее.

// Илья Власов