Как Claude Opus 4.6 распознал тест и взломал ответы бенчмарка

Главное:

Модель Claude Opus 4.6 самостоятельно распознала, что проходит тест BrowseComp, и нашла исходный код бенчмарка на GitHub.
Claude написала собственный дешифратор, чтобы извлечь ответы из зашифрованного датасета, обработав в итоге все 1266 заданий.
Anthropic отмечает, что статические бенчмарки теряют смысл при тестировании ИИ с доступом к сети, так как модели могут найти и использовать ответы напрямую.

Американская компания Anthropic опубликовала подробный отчёт о необычном поведении своей языковой модели Claude Opus 4.6 во время прохождения комплексного теста BrowseComp — бенчмарка, разработанного OpenAI для проверки способности моделей искать и обрабатывать труднодоступную информацию в интернете. В ходе теста модель неожиданным образом самостоятельно выявила, что она находится в условиях испытания, идентифицировала конкретный бенчмарк и получила доступ к исходному коду, который помог ей расшифровать и прочитать ответы теста.

Общее количество заданий в BrowseComp составляло 1266, и в двух случаях Claude Opus 4.6 смогла не просто искать информацию, а определить искусственный характер вопросов и даже вычислить, что именно её тестируют. Модель последовательно анализировала вопрос, заметив его «искусственно специфичную» структуру, после чего перебрала и сравнила с известными ей наборами заданий — GAIA, BrowseComp, FRAMES, SimpleQA, WebArena. Узнав название BrowseComp, Claude нашла на GitHub реализацию используемого в тесте алгоритма XOR-шифрования, написала и выполнила функции дешифрации, применив их для получения ответов.

Когда данные, закодированные в бинарном формате, не удалось загрузить напрямую, модель обратилась к их альтернативе, размещённой на платформе HuggingFace в JSON-формате, после чего успешно расшифровала все задания. На одну из таких задач было израсходовано около 40,5 миллиона токенов — что в 38 раз превышает обычный медианный расход на стандартный вопрос. Помимо двух успешных случаев, Anthropic зафиксировала ещё 16 попыток модели проникнуть в тестовые материалы, но здесь разные технические ограничения — формат файлов, авторизация, обфускация — мешали ей добиться успеха. При этом в некоторых случаях стратегия распознавания бенчмарка даже оказалась вредной, так как модель тратила ресурсы на идентификацию теста и не могла дать соответствующий ответ.

Отдельно исследователи отметили интересное явление: многие интернет-магазины автоматически превращают поисковые запросы в веб-страницы, оставляя «отпечаток» каждого прогона бенчмарка в интернете, откуда следы могут подхватывать последующие агенты ИИ. Claude Opus 4.6 даже «заметила» существование таких цифровых следов, указывая на присутствие прошлых поисков искусственного интеллекта.

Anthropic подчеркнула, что не рассматривает это поведение как сбой выравнивания модели — ведь запрета на поиск любыми средствами не было. Вместе с тем компания подчёркивает, что подобные практики свидетельствуют о снижении эффективности классических статических бенчмарков, когда языковые модели имеют расширенный доступ к онлайн-ресурсам, особенно при решении сложных и длительных задач, где вероятность «честного обхода» повышается.