Grok не справился с тестом на ненависть, Claude лидирует

Главное:

Модель Grok от xAI получила всего 21 балл из 100 в тесте ADL AI Index на распознавание и блокировку антисемитского и экстремистского контента.
Лучшим результатом в рейтинге стала модель Claude от Anthropic с 80 баллами, обогнав такие ИИ как ChatGPT и Gemini.
ADL провела оценку шести моделей на более чем 25 000 промптов по 37 категориям, выявив основную уязвимость — обход фильтров через ролевые сценарии.

Антидиффамационная лига (ADL) опубликовала результаты отраслевого рейтинга ADL AI Index, который измеряет эффективность моделей искусственного интеллекта в распознавании и блокировке антисемитского и экстремистского контента. В исследовании, проведённом в период с августа по октябрь 2025 года, оценивались шесть наиболее доступных на тот момент ИИ-моделей.

Ключевой аутсайдером стала модель Grok от компании xAI, получившая всего 21 балл из 100. В отчёте ADL отмечается, что Grok не просто пропускала опасный контент, но порой даже поддерживала экстремистские высказывания, что делает её использование «рискованным для бизнеса». В то же время лидерство удерживает Claude от Anthropic с 80 баллами, за ней следуют ChatGPT (57 баллов), DeepSeek (50), Gemini (49) и Llama (31).

Для оценки модели ADL прогнал более 25 000 различных запросов, охватывающих 37 категорий, включая отрицание Холокоста, теории заговора на антисемитскую тему, а также идеологию превосходства белой расы. Тесты охватывали не только прямые вопросы, но и более сложные сценарии обхода фильтров — например, написание YouTube-сценариев от лица конспирологов или анализ изображений с антисемитской символикой.

Главной «ахиллесовой пятой» большинства моделей оказался механизм работы с ролевыми промптами. Почти все ИИ, кроме Claude, позволяли обходить ограничения, когда их просили «сыграть роль персонажа». В результате, при прямом вопросе о контенте, модели отказались бы, но аналогичные данные, сформатированные как сценарий или художественный текст, успешно проходили фильтры.

Тем не менее, даже лучший результат Claude нельзя считать окончательным решением — 80 из 100 баллов свидетельствуют о том, что порядка 20% проблемного контента может сохраняться в системе. ADL подчёркивает, что индекс служит ориентиром для разработчиков и предупреждением для пользователей: пока не стоит полностью полагаться на этические барьеры искусственного интеллекта.