- OpenAI представила бенчмарк GDPval для оценки реального влияния ИИ на экономику.
- GDPval включает 1320 заданий из 44 профессий в 9 отраслях, формирующих более 5% ВВП США.
- Лидируют модели Claude Opus 4.1 и GPT-5, близкие по качеству к профессиональным решениям.
OpenAI анонсировала новый бенчмарк GDPval, ориентированный на измерение реального воздействия искусственного интеллекта на экономику. В отличие от традиционных тестов, оценивающих лишь краткие ответы, GDPval проверяет способность ИИ выполнять полноценные рабочие задачи из ключевых отраслей, формирующих значительную часть ВВП США.
Бенчмарк состоит из 1320 заданий, охватывающих 44 профессии в 9 секторах экономики, таких как юриспруденция, финансы, инженерия и здравоохранение. Для создания заданий привлекались специалисты с опытом работы около 14 лет, а сами задачи максимально приближены к реальной профессиональной деятельности — например, юрист должен составить правовую записку, инженер — доработать чертёж, аналитик — подготовить презентацию.
Результаты решений ИИ и эталонные варианты оцениваются экспертами в слепом формате, что позволяет объективно сравнивать качество решений. На данный момент лидируют модели Claude Opus 4.1 и GPT-5, которые демонстрируют близкий к уровню профессионалов результат. При этом GPT-5 превосходит конкурентов в точности исполнения, а Opus отличается более высоким качеством оформления.
По оценкам OpenAI, применение ИИ на части задач позволяет выполнить работу в десятки раз быстрее и дешевле, что открывает перспективы широкого внедрения таких моделей в экономику. GDPval может стать важным инструментом для разработчиков и компаний, помогая принимать решения о том, какие профессии и процессы целесообразно передавать искусственному интеллекту.