Perplexity оказался в ловушке: детали разоблачены в иске

Главное:

Reddit подал иск в суд Манхэттена против ИИ-поисковика Perplexity и трех компаний-партнёров за несанкционированный сбор контента.
Reddit устроил «ловушку» с тестовым постом, доступным только Google-краулеру, который вскоре оказался в ответах Perplexity, что подтверждает обход технических ограничений.
Perplexity отрицает обвинения, утверждая, что не обучает модели напрямую на данных Reddit и называет иск попыткой давления в рамках коммерческих переговоров.

Компания Reddit инициировала судебный процесс в федеральном суде Манхэттена против поискового искусственного интеллекта Perplexity и трёх поддерживающих его компаний: SerpApi, Oxylabs и AWMProxy. Иск связан с обвинениями в промышленном, то есть масштабном, сборе контента с платформы Reddit. По мнению истца, Perplexity и её партнёры систематически обходили технические ограничения, препятствующие сбору данных, и действовали без необходимого лицензирования. Для сравнения, Reddit отмечает, что такие крупные игроки, как Google и OpenAI, заключают лицензии на подобный доступ.

В поддержку своих претензий Reddit провела эксперимент с созданием специального тестового поста, который был виден исключительно краулеру Google и не доступен для обычных пользователей и внешних сборщиков данных. Тем не менее, спустя всего несколько часов информация из этого скрытого поста появилась в ответах Perplexity. Reddit интерпретирует это как явное нарушение: Perplexity, используя сторонние парсеры результатов поиска Google, получает доступ к сведениям, которые по замыслу должны оставаться недоступными. В иске подобное действие сравнивается с операцией правоохранительных органов по отслеживанию помеченных банкнот, когда можно однозначно доказать источник похищенных средств.

По словам представителей Reddit, компания уведомила Perplexity ещё в мае 2024 года с требованием прекратить несанкционированный доступ и сбор контента, однако вопреки этому количество ссылок Perplexity на материалы Reddit выросло в сорок раз. Reddit квалифицирует действия Perplexity и её подрядчиков как недобросовестную конкуренцию и попытку получить доступ к ценной базе пользовательских обсуждений бесплатно, тогда как другим заинтересованным компаниям подобные данные предоставляются лишь на платной лицензированной основе.

В свою очередь Perplexity отвергает все обвинения. Представители компании заявляют, что не обучают свои базовые модели напрямую на данных Reddit. Вместо этого Perplexity указывает, что лишь обобщает публично доступные обсуждения и при этом всегда предоставляет ссылки на источники. Более того, Perplexity характеризует позицию Reddit как попытку шантажа и рассматривает поданный иск как продолжение переговорного процесса, в ходе которого Reddit пытается продавать доступ к своей базе крупным технологическим компаниям.

Таким образом, дело между Reddit и Perplexity приобретает значимость не только с точки зрения защиты авторских прав и коммерческой информации, но и в контексте этических норм использования данных для обучения и функционирования современных искусственных интеллектов. Судебное разбирательство может задать важные прецеденты в регулировании границ доступа и использования контента в эпоху машинного обучения и поиска с помощью ИИ.

Читайте также