Claude Code, GPT-5.2 и DeepSeek V3.2 признаны лидерами среди ИИ-кодеров Обложка: Skyread

Claude Code, GPT-5.2 и DeepSeek V3.2 признаны лидерами среди ИИ-кодеров

Новости
Главное:

  • Claude Code от Anthropic занял первое место в рейтинге ИИ-программистов, решив 62,1% задач из реальных GitHub-репозиториев.
  • GPT-5.2-medium от OpenAI, появившийся за пять дней до публикации результатов, занял второе место и оказался более экономичным по использованию токенов.
  • DeepSeek V3.2 возглавил категорию открытых моделей с результатом 46,4%, предложив конкурентоспособное качество за умеренную стоимость.

Обновлённый бенчмарк SWE-rebench представил новую таблицу лидеров среди искусственных интеллектов, специализирующихся на программировании. Первая позиция данного рейтинга досталась Claude Code — агентскому инструменту от компании Anthropic, ориентированному на работу в командной строке. Он продемонстрировал способность решать 62,1% задач, взятых из реальных репозиториев GitHub. В отличие от других моделей Claude Code автономно читает файлы, запускает тесты и осуществляет итеративное исправление кода, что и обеспечило ему значительный отрыв от многих конкурентов, включая родственные версии Claude Opus 4.5 и Claude Sonnet 4.5, занявшие третью и четвёртую строчки.

В категории проприетарных моделей на заметном втором месте расположилась GPT-5.2-medium от OpenAI, появившаяся всего за пять дней до публикации результатов. Эта модель достигла результата 61,3%, при этом ее эффективность использования токенов оказалась выше практически всех участников: около 884 тысяч на задачу, что значительно меньше, чем у моделей Anthropic и предыдущих версий GPT-5, использующих от 1,2 до 1,9 миллиона токенов. Стоимость решения одной задачи для GPT-5.2-medium составляет примерно $0,47, что делает её выгодным выбором в топ-5. Любопытно, что эта «средняя» модель превзошла более продвинутую GPT-5.1-Codex-Max, ранее позиционировавшуюся OpenAI как флагман для задач программирования.

В категории открытого программного обеспечения лидерство сохранил DeepSeek V3.2 с результатом 46,4%. Эта китайская модель превосходит по результатам GLM-4.6 (46%) и актуальные версии Devstral-2 от Mistral (43,8%). При стоимости решения задачи около $0,56 модель демонстрирует качество, сравнимое с проприетарными аналогами предыдущего поколения, что предлагает сочетание эффективности и доступности. Несмотря это, в общем рейтинге DeepSeek V3.2 занимает лишь тринадцатое место.

Сравнение моделей в SWE-rebench основывается на 47 задачах из 20 репозиториев и нацелено на решение проблемы контаминации, то есть избегание ситуаций, когда модель уже могла встречать решения задач в обучающих данных. Однако полностью исключить такую вероятность не удаётся, что особенно актуально для самых свежих релизов, таких как GPT-5.2.

Tagged