Новая попытка стрясти денег с нейропоиска

Правообладатели давно объявили войну ИИ-поисковикам, но ведут её с переменным успехом. Если музыкальные гиганты вроде Universal и Warner активно давят на генераторы музыки Suno и Udio в суде, принуждая их в итоге к лицензионным сделкам, то текстовым медиа приходится сложнее. Сайты попали в ловушку: полностью закрыться от ботов нельзя, ведь тогда они исчезнут из поисковой выдачи Google и Яндекса, поэтому приходится их пускать — пуская одновременно и тех ботов, которые забирают контент для нейросетей. Спрятаться от «умных» поисковиков, которые по сути являются теми же ботами с прикрученной языковой моделью, очень сложно, решить вопрос чисто юридическими методами (и полюбовно) не получается, поэтому решили попробовать технические меры.

Решением стал протокол Really Simple Licensing (RSL), версия 1.0 которого получила статус официального стандарта. Это надстройка над привычным файлом robots.txt. Если раньше можно было сказать боту только «входи» или «уходи», то RSL позволяет превратить сайт в витрину с ценниками и условиями. Владелец контента сможет прописать сценарии: какой текст можно индексировать для поиска, но нельзя скармливать нейросети для обучения, какой доступен бесплатно с указанием авторства, а за какой нужно заплатить (модель pay-per-crawl). В отличие от модели Википедии, где открытые лицензии сочетаются с платными API для крупных клиентов, RSL пытается формализовать права и оплату именно для ИИ-ботов.

Но важнее, конечно, не сам протокол, а его распространённость. Стандарт уже поддержали большие инфраструктурные компании вроде Cloudflare и Akamai. Это значит, что провайдеры смогут на сетевом уровне блокировать «серых» ботов, у которых нет купленного токена доступа. К инициативе уже присоединились Reddit, Medium, Yahoo, Quora и The Guardian, плюс ряд других крупных медиа. По сути, формируется коалиция, которая очень хочет избавить ИИ-компании от ощущения, что если контент лежит на сайте в интернете открыто, то значит он общий и за него не нужно платить.

Правда, есть маленький нюанс — если сейчас, по заявлениям самих же Cloudflare и правообладателей, компании настолько легко и непринуждённо обходят robots.txt, то что помешает им делать это и впредь?