- OpenAI прекратила использование бенчмарка SWE-bench Verified для оценки моделей программирования.
- Выяснилось, что многие задачи в бенчмарке имеют некорректные тесты, которые отвергают правильные решения.
- Модели не демонстрируют реальные улучшения, а лишь повторяют ранее увиденные патчи из открытых репозиториев, что искажает результаты.
Компания OpenAI объявила о прекращении использования бенчмарка SWE-bench Verified — одного из наиболее популярных инструментов для оценки способностей искусственного интеллекта в решении реальных задач программирования. Этот бенчмарк, созданный самой OpenAI в 2024 году, на протяжении полутора лет считался стандартом в индустрии: при тестировании модели анализировали 500 задач с ошибками из открытых GitHub-репозиториев и требовали написать патчи для их исправления, а результаты широко публиковались в релизах новых ИИ-моделей.
Однако в процессе переоценки бенчмарка были выявлены две существенные проблемы. Во-первых, ручной анализ 138 задач, с которыми модели традиционно сталкивались с трудностями, показал, что в 59% случаев сама проверочная система содержит дефекты. Например, тесты требовали строгое имя функции, не соответствующее описанию задачи, из-за чего корректные решения автоматически не проходили проверку.
Во-вторых, были обнаружены факты, указывающие на попадание ответов из тестов в тренировочные данные моделей. Некоторые из них, в частности GPT-5.2, при тестировании воспроизводили оригинальные патчи практически дословно. Другие модели, такие как Claude Opus 4.5 и Gemini 3 Flash, буквально цитировали фрагменты кода и комментариев, что говорит о том, что их результаты не отражают реальных способностей к генерации новых решений, а лишь демонстрируют запоминание уже известных патчей.
Рост достижений на SWE-bench Verified с 74.9% до 80.9% за последние месяцы оказался не признаком улучшения моделей, а свидетельством эффективности извлечения и воспроизведения уже известных ответов.
С учётом выявленных проблем OpenAI рекомендует переходить на более современный бенчмарк SWE-bench Pro, который минимизирует утечку ответов в тренировочные наборы данных. Там лучшие модели показывают значительно более низкие результаты — около 23%, что демонстрирует гораздо более реалистичную оценку их возможностей.
