Anthropic: DeepSeek, Moonshot и MiniMax скрытно обучались на ответах Claude

Главное:

Три китайские AI-лаборатории — DeepSeek, Moonshot и MiniMax — использовали ответы модели Claude для обучения своих собственных моделей.
Всего через примерно 24 000 поддельных аккаунтов было сгенерировано свыше 16 миллионов запросов, нарушая условия использования и обходя региональные ограничения.
Дистилляция подобных данных ослабляет защитные механизмы моделей и подрывает цели экспортного контроля, создавая иллюзию самостоятельного развития китайских ИИ-систем.

Компания Anthropic сообщила о выявлении масштабной активности трёх китайских лабораторий в области искусственного интеллекта — DeepSeek, Moonshot и MiniMax. Эти организации тайно использовали ответы их модели Claude для обучения собственных ИИ-систем. В результате через около 24 000 поддельных аккаунтов было сгенерировано более 16 миллионов запросов, что стало явным нарушением правил использования сервиса Claude и сопровождалось обходом региональных ограничений посредством прокси-серверов.

Применённый метод, известный как дистилляция, представляет собой процесс, при котором сильная модель отвечает на тысячи запросов (промптов), а полученные ответы служат обучающими данными для новой модели. Сам по себе этот способ не является незаконным, однако в данном случае лаборатории DeepSeek, Moonshot и MiniMax нарушали условия использования сервиса и прибегали к техническим ухищрениям для скрытия своих действий.

Каждая из лабораторий фокусировалась на разных аспектах: DeepSeek сформировала около 150 000 запросов, включая задания на построение пошаговой логической цепочки — таким образом получая готовые данные для обучения reasoning-моделей. Кроме того, DeepSeek применяла Claude для создания «безопасных» ответов на политически чувствительные темы, чтобы научить свою модель обходить цензуру. Moonshot сгенерировала порядка 3,4 миллиона запросов, концентрируясь на агентном поведении, работе с инструментами и программным кодом. Самые масштабные действия реализовала MiniMax — около 13 миллионов запросов, также с акцентом на код и инструменты. При выходе обновлённой версии модели Claude, MiniMax оперативно перенаправила на неё примерно половину трафика.

Anthropic смогла атрибутировать эти «атаки» на основании IP-адресов, метаданных запросов и инфраструктурных признаков. Удалось даже выявить конкретных исследователей, причастных к DeepSeek, и связать Moonshot с публичными профилями старших сотрудников.

Доступ к сервису осуществлялся через сети прокси, перепродающие API ведущих моделей. Одна из таких сетей одновременно управляла более чем 20 000 поддельных аккаунтов, смешивая трафик по дистилляции с обычными пользовательскими запросами.

Anthropic обращает внимание, что модели, обученные таким способом, утрачивают защитные фильтры — например, против генерации вредоносного кода или материалов для биологического оружия. Кроме того, подобные действия ослабляют систему экспортного контроля, поскольку создают видимость быстрого и самостоятельного прогресса китайских лабораторий, тогда как часть инфраструктуры базируется на технологических ноу-хау американских разработчиков.