Теперь можно обучать ИИ на чужом авторском контенте

Иллюстрация сгенерирована нейросетью Sora
Федеральный судья Сан-Франциско почти решил главный вопрос эпохи генеративного ИИ: можно ли скармливать чужие книги алгоритмам без спроса. Ответ оказался половинчатым: да — если покупать легально, и нет — если качать с пиратских сайтов.

Вопрос появился из-за судебных тяжб компании Anthropic. Они использовали для обучения Claude и купленные издания, и более семи миллионов пиратских копий. Суд признал первое «справедливым использованием», приравняв ИИ к человеку, который читает и развивает собственные идеи. А вот за второе компании грозит новый процесс и штрафы до 150 тысяч долларов за каждое произведение (то есть потенциально сотни миллионов долларов).

Самое смешное — насколько абсурдна сама ситуация. Измерить реальный ущерб автору от использования конкретной книжки при тренировке невозможно. Удалить её из датасета «постфактум» тоже нельзя — разве что в будущих версиях, да и проверить это не получится без тщательного аудита всего дата-сета, который компания никому не покажет. Но и авторов понять можно — пока есть такой шанс, надо постараться стрясти с компаний как можно больше денег, потому что в любой момент ситуация с «авторскими правами Шрёдингера» может закончиться не в их пользу.

А пока мы имеем тройное авторство: изначальный автор контента в дата-сете, компания-разработчик модели и пользователь сервиса — все заявляют свои права на результат генерации ИИ. И никто не знает, как распутать этот клубок.