GPT-5.4 успешно прошла тесты на самых сложных интерфейсах мира

Главное:

Стартап Pace протестировал GPT-5.4 на сложных легаси-интерфейсах страховых компаний, где система успешно управлялась с навигацией и кликами.
GPT-5.4 продемонстрировала улучшенную точность, долговременное удержание контекста и память о расположении элементов, значительно превзойдя предыдущую версию по бенчмарку OSWorld-Verified.
Несмотря на успехи, текущая точность на уровне 75% подразумевает наличие ошибок, что ставит под вопрос безусловную надёжность ИИ-агентов в реальном продакшене.

Компания Pace, разрабатывающая искусственных интеллект-агентов для страхового сектора, провела испытания новой версии модели GPT-5.4 на реальных старых (легаси) порталах страховых компаний. Эти системы используются уже около двух десятилетий и характеризуются перегруженными интерфейсами с мелкими элементами управления. По данным стартапа, GPT-5.4 показала способность точно выполнять клики по необходимым элементам, удерживать контекст на протяжении сотен действий и запоминать расположение интерфейсных компонентов между сессиями.

Проблематика применения ИИ в страховании обусловлена сложностью рабочих процессов, которые включают сотни операций — от навигации по меню и ввода структурированных данных до сверки с PDF-документами и обработки исключений в различных системах. Старые версии моделей часто «теряли нить» выполнения сложных сценариев, однако GPT-5.4, как утверждает Pace, уверенно удерживает контекст до завершения задачи.

Поддержка самой компании OpenAI подтверждает значительный прорыв модели: GPT-5.4 получила контекстное окно в размере 1,05 миллиона токенов и нативную функцию компакции — сжатия контекста для длительных сессий. Pace выделяет четыре основных преимущества новой версии: улучшенная точность кликов на перегруженных экранах, способность рассуждать на долгоиграющих цепочках действий, ускоренный процесс итераций при тестировании и способность агента запоминать пространственную раскладку интерфейсов, избегая повторных вычислений.

На стандартизированном бенчмарке OSWorld-Verified, оценивающем эффективность моделей при управлении десктопом по скриншотам, GPT-5.4 достигла результата в 75% успешных операций — значительно выше показателя предыдущей версии GPT-5.2 (47,3%) и даже превышая средний человеческий уровень (72,4%).

Важно отметить, что стартап Pace имеет солидную репутацию: в декабре прошлого года компания объявила о сотрудничестве с Prudential Financial, где ИИ-агенты уже применяются для автоматизации обслуживания страховых полисов на базе существующих систем. Текущий подход компании заключается не в замене устаревших платформ, а в разработке агентов, которые способны работать непосредственно с привычными операторам интерфейсами.

Тем не менее, несмотря на впечатляющие результаты, уровень надежности подобных ИИ-агентов в промышленной эксплуатации остается открытым вопросом. Даже 75% успешных операций означает, что примерно каждое четвертое задание заканчивается ошибкой, что требует разработки методов минимизации таких сбоев.