Писатели уличили Adobe в обучении SlimLM на пиратских книгах

Главное:

Группа писателей, включая Элизабет Лайон, подала иск к Adobe за использование пиратских копий книг для обучения ИИ-модели SlimLM.
SlimLM была обучена на наборе данных SlimPajama-627B, который, в свою очередь, основан на датасете RedPajama с включением коллекции Books3, содержащей защищённые авторским правом произведения.
Подобные споры с использованием датасетов пиратских книг для обучения ИИ уже привели к судебным искам против Apple, Salesforce и крупным выплатам со стороны Anthropic.

Известная компания Adobe оказалась в центре судебного разбирательства, так как группа авторов, среди которых значится писательница Элизабет Лайон, предъявила ей обвинения в неправомерном использовании защищённых авторским правом произведений для обучения собственной системы искусственного интеллекта SlimLM. По словам истцов, некоторые их произведения вошли в исходный набор данных, на базе которого Adobe обучала свою модель.

Компания описывает SlimLM как компактную языковую модель, адаптированную для эффективной работы с документами на мобильных устройствах. Для предобучения модели Adobe использовала набор данных SlimPajama-627B, созданный на основе RedPajama — открытого и дедуплицированного корпуса, выпущенного Cerebras в 2023 году. Однако SlimPajama включает в себя производные данные из RedPajama, в свою очередь частично основанные на коллекции Books3, содержащей почти 200 тысяч книг, многие из которых защищены авторским правом.

Коллективный иск отмечает, что использование таких материалов без согласия правообладателей нарушает их права и ставит под вопрос легальность применяемых корпусов для тренировок ИИ. Подобные споры уже неоднократно возникали в технологической сфере: как оказалось, Apple и Salesforce также сталкивались с судебными претензиями за использование пиратских книг из тех же датасетов для собственных ИИ-проектов.

Кроме того, компания Anthropic уже была вынуждена выплатить авторам компенсации в размере 1,5 миллиарда долларов за аналогичные нарушения, а сама компания призналась в массовом сканировании и уничтожении миллионов физических книг для обучения ИИ-моделей.

Ситуация с Adobe лишь подчёркивает напряжённость между стремительным развитием технологий искусственного интеллекта и необходимостью соблюдения авторских прав. Юридические баталии вокруг использования литературных произведений в обучении ИИ продолжают формировать правовой ландшафт и заставляют технологические компании искать новые пути легального доступа к качественным данным.