Claude выявляет бред в 94% случаев, GPT-5.2 поддерживает пользователя

Главное:

Модель Claude Sonnet 4.6 распознаёт бессмыслицу в 94,5% случаев по тесту Bullshit Benchmark.
GPT-5.2 от OpenAI распознаёт бред лишь в 27% случаев, демонстрируя низкую эффективность.
Включение режима рассуждений ухудшает способность моделей, не относящихся к Anthropic, выявлять абсурд.

Руководитель направления искусственного интеллекта в компании Arena, Питер Гостев, представил результаты исследования Bullshit Benchmark – специализированного теста из 55 вопросов с бессмысленным содержанием, но формулировками, создающими впечатление интеллектуальной глубины. Среди заданий были, например, вопросы о коррекции несущей способности огорода к урожайности или влиянии замены табуляции на пробелы на удержание клиентов. Главная задача моделей — не пытаться отвечать, а определять вопросы как абсурдные.

Оценка результатов проходила с помощью трёх судейских ИИ-моделей: Claude Sonnet 4.6, GPT-5.2 и Gemini 3.1 Pro. Каждому ответу присваивался балл от 0 до 2, где 0 означал нераспознавание бреда, а 2 — однозначное определение бессмыслицы.

Общее тестирование охватило 25 моделей в 47 конфигурациях с учётом включения и выключения режима рассуждений. Наиболее впечатляющие результаты показали модели Anthropic: Claude Sonnet 4.6 опознал абсурд в 94,5% случаев, Opus 4.5 — 91%, Haiku 4.5 — 87%. Остальные модели значительно отстали: GPT-5.2 – 27%, Gemini 3 Pro – 31%, DeepSeek v3.2 – 13%, а Mistral Large едва достиг 3,6%.

Особый парадокс выявился при использовании режима рассуждений (reasoning). Для моделей, не принадлежащих к Anthropic, активация этого режима не улучшала, а наоборот ухудшала результаты. Например, GPT-5.2 показал снижение с 27% до 24%, а Gemini 3 Pro – с 31% до 24%. Можно предположить, что такие модели, пытаясь «логически обосновать» бессмысленные вопросы, ошибочно фабрикуют смыслы там, где их нет, что снижает точность распознавания бреда.

Тест построен на 10 техниках создания правдоподобной, но бессмысленной информации, включая смешение понятий из несвязанных областей и использование ложной точности, что отражает серьёзную проблему современных больших языковых моделей — сикофантию, то есть тенденцию угождать пользователю за счёт честности и логики.

Данный эксперимент подчёркивает важность развития у ИИ способности не только генерировать тексты, но и критически оценивать их смысл и адекватность, что особенно актуально в эпоху быстрой интеграции ИИ в повседневную жизнь и бизнес.