- GPT-5.4 занял первое место в бенчмарке Vibe Code Bench v1.1 с результатом 67,42%, превзойдя предыдущего лидера GPT-5.3 Codex.
- Бенчмарк оценивает способность моделей создавать полнофункциональные веб-приложения с нуля по текстовому описанию, а не просто фиксировать баги или дописывать функции.
- Несмотря на лидерство по точности, GPT-5.4 уступает по эффективности с точки зрения затрат и задержек в сравнении с Claude Opus 4.6, что важно для разработчиков.
Эксперты в области искусственного интеллекта отметили значительный прогресс в разработке моделей для автоматизированного вайб-кодинга. Последняя версия GPT-5.4 уверенно заняла первое место в сравнительном тестировании Vibe Code Bench v1.1, набрав 67,42%. Это на 5,7 процентных пункта выше результата предыдущего лидера GPT-5.3 Codex, продемонстрировав тем самым улучшение в создании полноценных веб-приложений по текстовому описанию.
Особенностью данного бенчмарка является то, что модели не просто исправляют ошибки или завершают части кода, а строят целое функционирующее веб-приложение с нуля. Тестовый набор включает 100 заданий, разделённых на публичную и тестовую части, где каждая задача требует разработки приложения в изолированной среде с доступом к браузеру, терминалу и стандартным сервисам для продакшена — таким как аутентификация, базы данных, платежные системы и электронная почта. Среди испытаний — создание аналогов социальных сетей, трекеров привычек и образовательных порталов.
Отмечается, что на каждое приложение моделям отводится до пяти часов, а оценка готовых решений ведётся автоматически специализированным агентом, проверяющим работоспособность функций как это сделал бы пользователь. Несмотря на выдающийся результат GPT-5.4, его решения не всегда стабильны: примерно треть проектов терпит неудачу, при этом приложения либо работают практически без сбоев, либо почти совсем не функционируют.
Также важным фактором эксперты называют эффективность — соотношение качества результата, затрат и задержек. В этом аспекте Claude Opus 4.6 демонстрирует близкие к лидеру показатели при меньших вычислительных расходах, что может стать решающим для ряда разработчиков, учитывающих стоимость токенов и время отклика.
Несмотря на сохраняющиеся проблемы и значительный разброс в качестве решений, текущий рост продуктивности моделей впечатляет: всего полгода назад лучшие показатели были почти вдвое ниже. Это свидетельствует о стремительном развитии технологий искусственного интеллекта в области автоматизированной разработки программного обеспечения.
