Глава Common Crawl призвал разрешить чат-ботам бесплатно читать книги

Главное:

Глава Common Crawl призывает разрешить чат-ботам свободный доступ к интернет-контенту, в том числе книгам.
Common Crawl собирает и предоставляет огромный архив интернет-данных, включая платные новости, которые используются ИИ-компаниями для обучения моделей.
Некоторые издания добиваются удаления своего контента из архива, но исследования показывают, что статьи продолжают присутствовать в базе данных.

Исполнительный директор некоммерческой организации Common Crawl Рич Скрента выступил с заявлением о том, что модели искусственного интеллекта должны иметь полный доступ к контенту в интернете. По его мнению, чат-ботам необходимо разрешить «читать книги» бесплатно, чтобы обеспечить более качественное обучение и развитие технологий ИИ.

Common Crawl на протяжении более десяти лет занимается масштабным сбором данных с миллиардов сайтов, формируя обширный открытый архив интернет-страниц. Его объем исчисляется петабайтами, и он доступен для исследовательских целей. Однако в последние годы компании, разрабатывающие искусственный интеллект, такие как OpenAI, Google, Anthropic, Nvidia, Meta и Amazon, активно используют этот архив для обучения больших языковых моделей (БЯМ). Кроме того, в архив попали и материалы, доступ к которым обычно ограничен платным доступом.

Некоторые новостные издания обращались к Common Crawl с просьбой удалить их статьи, чтобы предотвратить использование этих материалов для обучения ИИ. Несмотря на заверения организации о том, что она уважает авторские права и не нарушает платные доступы, независимые исследования демонстрируют обратное. В частности, архив включает статьи таких изданий, как New York Times, Economist, Wall Street Journal и других.

Основатель Common Crawl Гил Эльбаз в 2012 году подчеркивал необходимость добросовестного использования базы данных. По его словам, если пользователи уважают авторские права, применение данных не вызывает проблем. Тем не менее ряд изданий в 2023 году уже заблокировали парсеры организации и требовали удалить ранее скопированные материалы. Common Crawl частично исполнила эти требования, однако скрыть полностью присутствие платных статей не удалось.

Рич Скрента отметил, что контент, размещённый в интернете, считается доступным по умолчанию, и издатели сами несут ответственность за его доступность. При этом Common Crawl получила финансирование от ведущих игроков сферы ИИ, включая OpenAI и Anthropic, что подчеркивает вес и значимость организации в области открытых данных для искусственного интеллекта.

Таким образом, ситуация с использованием интернет-архивов для обучения ИИ-моделей продолжает вызывать дискуссии, затрагивая вопросы авторских прав, этики и стратегии развития технологии. Common Crawl выступает за расширение доступа к информации, считая, что это пойдёт на пользу не только разработчикам ИИ, но и всему обществу.