- Компания Artificial Analysis представила бенчмарк GDPval-AA, оценивающий ИИ-модели на реальных рабочих задачах в 44 профессиях и 9 отраслях.
- Лидером тестирования стала модель Claude Opus 4.5 с результатом 1426 Elo, опередив GPT-5 и другие конкурирующие ИИ.
- Высокое качество Claude Opus 4.5 достигается при значительных издержках — стоимость полного прогона бенчмарка составила $608.
Компания Artificial Analysis разработала и представила новый бенчмарк GDPval-AA, позволяющий объективно оценить производительность искусственного интеллекта на практических рабочих задачах в широком спектре профессий и отраслей. В тесте принимают участие модели, выполняющие такие задачи, как создание презентаций, работа с таблицами Excel, составление документов Word и даже рендеринг видео.
По итогам тестирования лидером стал Claude Opus 4.5, набравший 1426 Elo, что значительно опережает ближайших конкурентов. На втором месте расположилась модель GPT-5 с 1311 Elo, а замкнул тройку лучших Claude Sonnet 4.5 с 1291 баллом. Стоит отметить, что более новая версия OpenAI — GPT-5.1 — продемонстрировала снижение качества, уступив предшественнику на 67 Elo за счёт оптимизации использования токенов.
Кроме того, компанией были протестированы готовые чат-приложения на базе ИИ. В данной категории также уверенно лидировал Claude с Opus 4.5 Thinking (1325 Elo), заметно опередив ChatGPT на GPT-5.1 (1129 Elo). Ключевыми преимуществами Claude стали способность создавать видео и аудиофайлы, а также корректно формировать запрашиваемые форматы документов. В то же время конкуренты допускали ошибки — предоставляя неправильные форматы файлов или неполные решения.
Однако высокая результативность Claude Opus 4.5 сопровождается значительными затратами: тестирование модели обошлось в $608. Для сравнения, полное выполнение бенчмарка на GPT-5 оценили в $167, а DeepSeek V3.2 — лишь в $29. При этом DeepSeek V3.2 стал единственной моделью, продемонстрировавшей оптимальное соотношение цена/качество, попав в «зелёный квадрант» графика.
Таким образом, бенчмарк GDPval-AA открывает новые возможности для комплексной оценки искусственного интеллекта в рабочих сценариях, показывая не только качество решений, но и эффективность их применения с учётом затрат. Claude Opus 4.5, несмотря на лидирующие показатели, требует значительных ресурсов, что может стать решающим фактором при выборе ИИ в корпоративных и прикладных задачах.
