OpenAI обязали раскрыть данные об обучении ИИ на пиратских книгах

Главное:

Федеральный судья в Нью-Йорке обязал OpenAI раскрыть переписки с юристами о причинах удаления наборов пиратских книг из обучения GPT-моделей.
Истцы – авторы и известные писатели утверждают, что OpenAI незаконно использовала книги из теневой библиотеки LibGen для обучения GPT-3 и GPT-3.5.
Решение суда может раскрыть масштабы использования пиратских данных и степень осознанности компании в отношении юридических рисков.

Федеральный судья Она Ванг в Нью-Йорке приняла решение, обязывающее компанию OpenAI предоставить суду внутренние документы и переписки с юристами, связанные с удалением из обучающих данных двух наборов книг, взятых из теневой библиотеки LibGen. Данные наборы, известные как Books1 и Books2, содержали, по оценкам, более 100 тысяч пиратских книг, которые использовались для обучения моделей серии GPT, включая GPT-3 и GPT-3.5.

Истцы, представляющие интересы Authors Guild и группу известных писателей, среди которых такие имена, как Джордж Мартин и Джон Гришэм, обвиняют OpenAI в незаконном использовании защищённого авторским правом материала без получения разрешений. По их утверждению, ещё в 2018 году один из сотрудников компании скачал огромный массив данных с LibGen, на основе которого затем сформировали обучающие датасеты. Наборы Books1 и Books2 были удалены из использования OpenAI в 2022 году, за год до подачи исков, при этом компания первоначально называла причиной удаления то, что данные стали ненужными. Однако суд отметил, что это единственные обучающие выборки, которые OpenAI удалила за всё время своей деятельности.

В разбирательствах по делу попытки истцов выяснить истинные причины удаления наборов встречали отказ в связи с адвокатской тайной, на которую ссылалась компания. В частности, OpenAI сначала допускала обсуждение вопроса с судом, но позже заявила, что все внутренние дискуссии относительно удаления представляют собой конфиденциальную информацию и не подлежат разглашению.

Судья Ванг подчеркнула, что подобная позиция OpenAI является противоречивой: с одной стороны, компания заявляет о своей добросовестности, а с другой — препятствует доступу к документам, которые могли бы это подтверждать. Суд увидел в этом двойные стандарты, что лишает компанию права на защиту через адвокатскую тайну в данном вопросе.

В результате суд обязал OpenAI предоставить полный архив внутренней переписки, письменных сообщений и других документов, связанных с аспектами использования и удаления данных Books1 и Books2. В частности, в список вошли обсуждения в Slack-канале, где сотрудники вели диалог о процедуре удаления данных из инфраструктуры компании.

Данное решение имеет серьёзные последствия для OpenAI: раскрытие документов может выявить не только масштабы использования пиратских данных, но и степень понимания и возможного скрытия юридических рисков. Если в переписке будут найдены доказательства умышленного нарушения, это значительно усилит позицию истцов, которые требуют признать нарушение авторских прав умышленным и добиться максимальных компенсаций.

Отметим, что схожая ситуация уже возникала в деле Bartz против Anthropic, где суд, несмотря на признание допустимости «добросовестного использования» законно приобретённых книг, отметил, что использование миллионов пиратских копий из теневых библиотек является нарушением. В итоге Anthropic пошла на мировое соглашение с выплатой около 1,5 миллиарда долларов и обязалась удалить пиратский контент из своих систем.