Яблоко раздора

Два автора подали коллективный иск против Apple в федеральный суд Северной Калифорнии. Претензия: компания обучала свои языковые модели OpenELM и Foundation Language Models на пиратском датасете Books3, куда попали произведения истцов. Доказательства взяты из собственной документации Apple: в опубликованной на Hugging Face статье упоминается набор данных RedPajama, который использует именно Books3. Авторы требуют статусного иска, компенсаций и уничтожения всех моделей, куда попали их книги.

Время выбрано не случайно и совпало с решением Anthropic выплатить рекордные 1,5 миллиона издателям за тот же самый Books3. Там тоже начали с коллективного иска трёх авторов, обвинивших компанию в «намеренной загрузке пиратских копий». Прецедент создан, и теперь истцы выстроились в очередь.

Впрочем, судебная практика противоречива. Meta (признана экстремистской организацией) недавно выиграла аналогичное дело: судья счёл использование книг для тренировки моделей fair use. Президент Трамп поддержал эту логику публично: «Нельзя требовать успешной ИИ-программы, если за каждую прочитанную статью или книгу нужно платить, это просто нереализуемо». Так что вопрос остаётся: кто должен нести ответственность — те, кто обучает модели на чужих данных, или те, кто собирает и продаёт датасеты, не владея правами на них? Пока истцы выбирают в качестве жертв владельцев самых больших карманов.

//Илья Власов