- Модель Claude Opus 4.5 от Anthropic заняла первое место в декабрьском обновлении бенчмарка SWE-rebench с результатом 63,3%.
- Второе и третье места заняли модели GPT-5.2 от OpenAI и Gemini 3 Flash Preview от Google с результатами 61,5% и 60% соответственно.
- Gemini 3 Flash Preview является самым экономичным решением — стоимость решения одной задачи всего $0,29 при минимальном отставании от лидера.
В декабре обновился рейтинг искусственных интеллектов по программированию в рамках бенчмарка SWE-rebench. Он представляет собой живую систему оценки моделей на основе реальных задач из репозиториев GitHub, что минимизирует вероятность использования ранее известных тестов. В текущем обновлении состязались 48 задач из 37 различных проектов.
Первое место в рейтинге заняла модель Claude Opus 4.5, разработанная компанией Anthropic, с показателем эффективности 63,3%. Следом расположились GPT-5.2 от OpenAI с результатом 61,5% и Google Gemini 3 Flash Preview, который набрал 60%.
Особое внимание заслуживает соотношение эффективности и стоимости. Claude Opus 4.5 требует $1,22 на решение одной задачи, GPT-5.2 — $1,46, тогда как Gemini 3 Flash Preview предлагает самый выгодный вариант в $0,29, предлагая лишь небольшое снижение точности по сравнению с лидером. Это подчеркивает потенциал экономичных ИИ-решений, которые способны конкурировать с флагманами рынка.
В списках также оказались и другие модели Anthropic: Claude Sonnet 4.5 показала 57,5%, а Claude Code заняла восьмое место с результатом 56,7%. Важно отметить, что Claude Code является агентским инструментом с дополнительной обёрткой, что влияет на прямое сравнение с «чистыми» моделями.
Отдельно стоит отметить успех китайской open-source модели GLM-4.7, которая достигла 51,3%, значительно улучшив прошлую версию GLM-4.6 с 40%. Этот прогресс свидетельствует о растущем потенциале открытых разработок в области искусственного интеллекта.
Таким образом, декабрьское обновление SWE-rebench демонстрирует, что рынок ИИ-моделей для программирования продолжает динамично развиваться, предлагая широкий спектр решений с разным соотношением производительности и стоимости.
