Исследование показало: нейросети не могут поддерживать долгосрочную эволюцию кода

Главное:

Исследование Alibaba Group и Университета Сунь Ятсена выявило, что современные нейросети пока не способны эффективно поддерживать долгосрочную эволюцию кодовой базы без ухудшения качества кода.
Для оценки этих возможностей был разработан бенчмарк SWE-CI, который отражает реальные процессы непрерывной интеграции с многократными итерациями и изменениями кода.
Анализ 18 моделей от 8 поставщиков показал прогресс в области автоматизации программирования, однако сохраняются существенные трудности с предотвращением регрессий и поддержанием стабильности в долгосрочной перспективе.

Группой исследователей из Alibaba Group и Университета имени Сунь Ятсена проведено масштабное исследование, посвящённое способности современных больших языковых моделей (LLM) поддерживать длительную эволюцию программных кодовых баз. В работе было отмечено, что несмотря на успехи в автоматизации отдельных задач — например, исправлении ошибок — нейросети пока не могут качественно обеспечить продолжительное развитие кода с добавлением новых функций без утраты работоспособности существующих модулей.

Для более точной оценки данного аспекта учёные создали новый бенчмарк SWE-CI (Software Evolution Continuous Integration), имитирующий реальные жизненные циклы разработок, включающий до 100 задач с историей эволюции в среднем свыше 230 дней и 71 последовательным коммитом на примерах реальных репозиториев. В отличие от существующих тестов, которые оценивают модели по одноразовым задачам и решениям, SWE-CI реализует протокол с циклом итеративного изменения кода и запуском модульных тестов, где задействованы два агента — «архитектор» и «программист».

В ходе эксперимента была введена метрика EvoScore — показатель, измеряющий, насколько ранние изменения облегчают развитие кода в будущем. Это помогает выявить модели, которые создают хорошо структурированный и расширяемый код, а также тех, кто допускает накопление технического долга, затрудняющего последующую поддержку.

В тестировании приняли участие 18 моделей от восьми различных компаний. Анализ выявил, что новейшие модели в каждой семействе показывают заметные улучшения по сравнению с предыдущими версиями, а модели, выпущенные после начала 2026 года, демонстрируют значительный прогресс в поддержке долгосрочных изменений. В числе лидеров устойчиво находятся Claude Opus и GLM-5. При этом представители разных компаний проявляют разную стратегию: одни делают ставку на долгосрочную выгоду (MiniMax, DeepSeek, GPT), другие склоняются к более быстрой отдаче (Kimi, GLM), третьи представляют стабильное поведение вне зависимости от условий (Qwen, Doubao, Claude).

Особое внимание уделялось показателю регрессий — случаев, когда изменение кода приводит к провалу ранее работавших тестов. Результаты показали, что практически все модели удерживают долю отсутствия регрессий ниже 25%, за исключением серии моделей Claude-opus, превышающих 50%. Это указывает на сохранение больших проблем в обеспечении стабильности и качества программного продукта при длительном сопровождении полностью автоматизированными системами.

Ранее и другие специалисты, такие как Ондржей Cури из ISC, отмечали, что большие языковые модели хорошо подходят для быстрого прототипирования, анализа и выполнения рутинных задач, однако в комплексных и объёмных проектах всё ещё требуется значительное участие человека для постановки задач, проверки и доработки результатов, что снижает эффективность экономии времени.

Таким образом, нынешние достижения в области искусственного интеллекта вызывают оптимизм за счёт быстрого развития возможностей генеративных моделей, но одновременно подчёркивают существующие ограничения в сфере долгосрочной и устойчивой эволюции кода — ключевого аспекта для промышленной разработки программного обеспечения.