Grok 4 и GPT-5 лидируют в финансовом тесте, но уступают людям Обложка: aiSkyread

Grok 4 и GPT-5 лидируют в финансовом тесте, но уступают людям

Новости
Главное:

  • Опубликованы результаты FinSearchComp — открытого финансового бенчмарка с 635 вопросами, имитирующего задачи финансовых аналитиков.
  • Модели Grok 4 и GPT-5 продемонстрировали лучшие результаты среди ИИ, но профессиональные аналитики всё ещё превосходят их, особенно в сложных многошаговых задачах.
  • ИИ уже могут эффективно справляться с рутинными задачами, однако глубокий финансовый анализ пока остаётся за людьми.

Недавно стали известны итоги FinSearchComp — открытого теста, в котором проверяли способности различных моделей искусственного интеллекта и профессиональных аналитиков решать финансовые задачи. Тест состоял из 635 вопросов, сгруппированных по сложности и типу: актуальные данные (T1), точечные исторические факты (T2) и сложные многошаговые расследования (T3). Эти категории прекрасно отражают спектр задач, с которыми сталкивается финансовый аналитик в повседневной работе.

Результаты показали, что профессиональные аналитики сохраняют заметное преимущество. На глобальном наборе данных они в среднем набирают 75,0%, при этом 100% достигают в простых задачах с «горячими» данными (T1), 73,3% — в исторических фактах (T2) и 51,4% в многошаговых расследованиях (T3). В китайском поднаборе показатели ещё выше — 88,3% в среднем, с лучшими результатами в тех же категориях. Это подтверждает, что многокомпонентный анализ и связывание разнородной информации остаются сложной задачей и для людей, и для машин.

Среди ИИ-моделей на глобальном массиве данных лидером стала модель Grok 4, набравшая в среднем 68,9% (T1 — 87,3%, T2 — 68,1%, T3 — 51,2%), чуть отстаёт GPT-5-Thinking с 63,9%. Особенно интересно отметить, что в «горячих» и простых исторических вопросах ИИ модели приближаются к человеческому уровню, однако их эффективность существенно снижается в категории многошагового анализа.

В региональном китайском наборе лидирует модель DouBao, которая, несмотря на лучшие показатели среди ИИ в этом сегменте, демонстрирует всего 54,2% в среднем (T1 — 88,3%, T2 — 63,0%, T3 — 11,4%) при значительном отставании от человеческих результатов. Особенно существенно различие в категории T3 свидетельствует о проблемах ИИ с многошаговой логикой и синтезом разнообразных источников.

Эти данные подтверждают одну из ключевых тенденций на рынке труда — искусственный интеллект уже сегодня способен заменить начинающих специалистов, для которых рутинный поиск и обработка информации составляет основную часть работы. Тем не менее, несмотря на достигнутый прогресс, глубокий и комплексный финансовый анализ с учётом многофакторных связей пока лучше доверять людям.

В целом финальный вывод можно сформулировать так: современные ИИ-модели демонстрируют впечатляющие результаты в некоторых аспектах финансового анализа, однако полное замещение профессионалов ещё далеко. Это служит напоминанием о важности сочетания человеческого интеллекта и искусственных систем для достижения оптимальных результатов в финансовой аналитике.

author avatar
Павел Николаев
Tagged