Первый CI-бенчмарк для ИИ: агенты пишут код, но не поддерживают его

Главное:

Представлен первый бенчмарк SWE-CI, оценивающий способность ИИ-агентов поддерживать код в длительной перспективе.
18 моделей от 8 провайдеров протестированы на 100 задачах из реальных Python-репозиториев, большинство моделей показали низкий уровень безрегрессий.
Лидер тестирования — модель Claude Opus 4.6 с показателем безрегрессий 0,76, гораздо выше большинства остальных.

Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый в своём роде бенчмарк, который оценивает не просто генерацию кода ИИ-моделями, а их способность поддерживать и развивать программные проекты на протяжении длительного времени. В отличие от существующих тестов, проверяющих одномоментное исправление ошибки, SWE-CI моделирует реальный процесс разработки с множеством итераций и изменениями в требованиях, отражая технический долг и длительную поддержку кода.

Для оценки производительности агентов использовалась метрика EvoScore — взвешенное среднее прогресса в серии коммитов, где более поздние итерации имеют больший вес. Это позволило выявить модели, которые быстро справляются с простыми правками, но не способны стабильно поддерживать работоспособность кода при развитии проекта. Тестирование проводилось на 100 задачах из реальных Python-репозиториев со средней продолжительностью 233 дня и 71 последовательным коммитом.

В испытаниях приняли участие 18 моделей от 8 провайдеров. Лучший результат показала модель Claude Opus 4.6 — она смогла сохранить отсутствие регрессий в 76% случаев, что говорит о её устойчивости к поломкам ранее работающего кода на протяжении всего цикла разработки. Для сравнения, у следующей по рейтингу модели Claude Opus 4.5 этот показатель составляет 51%, а у большинства остальных — ниже 25%. Так, GPT-5.2 продемонстрировала 23% безрегрессионных задач, а модели Qwen3-Max-2025 и doubao-seed-2 — менее 10%.

Авторы отметили, что модели можно классифицировать по стратегиям: некоторые (MiniMax, DeepSeek, GPT) выбирают долгосрочный подход к разработке, другие (Kimi, GLM) ориентируются на быстрые краткосрочные решения, в то время как Claude, Qwen и Doubao показывают стабильность вне зависимости от настроек метрики. В реальных условиях непрерывной интеграции (CI) регрессия воспринимается как блокирующий фактор, потому что она удерживает изменения от попадания в главный кодовый репозиторий.

Исходя из результатов, 15 из 18 протестированных моделей не смогут в полной мере выполнять задачи профессиональной поддержки и развития кода, поскольку не достигают порога 37% безрегрессионных итераций. SWE-CI стал важным шагом для оценки и улучшения качества работы ИИ-агентов в условиях реальной и длительной разработки программного обеспечения.