В Стэнфорде доказали: ИИ хранит «Гарри Поттера» почти целиком

Главное:

Исследователи из Стэнфорда и Йеля извлекли 95,8% текста книги «Гарри Поттер и философский камень» из модели Claude 3.7 Sonnet.
В эксперименте участвовали четыре коммерческие модели ИИ: Claude, GPT-4.1, Gemini 2.5 Pro и Grok 3 — результаты у них отличались по полному воспроизведению текста.
Результаты исследования ставят под сомнение заявления компаний, что модели ИИ не хранят копии обучающих данных, что имеет значение для судебных споров о нарушении авторских прав.

Исследователи из Стэнфорда и Йеля провели эксперимент, в ходе которого им удалось воспроизвести практически полный текст книги «Гарри Поттер и философский камень» из коммерческой языковой модели Claude 3.7 Sonnet. Было извлечено около 73 000 слов из общего объёма в 77 000, что составляет впечатляющие 95,8% текста дословно. Кроме Claude в исследовании участвовали и другие популярные модели: GPT-4.1, Gemini 2.5 Pro и Grok 3.

Однако результаты оказались неоднородными. Так, Gemini 2.5 Pro воспроизвела 76,8% книги, а Grok 3 — 70,3% текста при непосредственном запросе без дополнительных манипуляций с подсказками. Модели Claude и GPT-4.1 потребовали специальных методов перебора вариаций запроса (метод Best-of-N) для обхода защиты. Для Claude потребовалось 258 попыток, тогда как GPT-4.1 выполнила более 5000, но в итоге смогла воспроизвести лишь 4% текста, остановившись после первой главы.

Claude 3.7 Sonnet стал не только лидером по воспроизведению «Гарри Поттера»: из той же модели исследователи также смогли извлечь внушительные 97,5% текста «Великого Гэтсби», 95,5% «1984» и 94,3% «Франкенштейна». Все упомянутые произведения защищены авторским правом в США. На извлечение одной книги в среднем расходовалось от 55 до 135 долларов, что зависит от количества необходимых запросов.

Полученные данные могут существенно повлиять на позицию компаний-разработчиков ИИ в текущих судебных разбирательствах с правообладателями. В 2023 году Google и OpenAI утверждали, что модели не содержат копий обучающих материалов. Однако эти результаты открывают новые вопросы о реальном хранении и воспроизводстве авторских текстов в языковых моделях. Авторы исследования провели эксперименты летом и осенью 2025 года, уведомили о них компании и опубликовали результаты после предусмотренного 90-дневного периода раскрытия.