OpenAI представила GPT-5.4 — первую модель с управлением компьютером

Главное:

OpenAI выпустила модель GPT-5.4, которая объединяет универсальные и кодерские функции, заменяя GPT-5.2 и GPT-5.3-Codex.
GPT-5.4 получила контекстное окно размером 1,05 миллиона токенов и впервые в основной модели умеет управлять компьютером — взаимодействовать с интерфейсами и работать с программами.
Модель значительно улучшила показатели в агентных задачах, расширила уровень рассуждений до режима «экстремального мышления» и внедрила нативную поддержку сжатия контекста.

Компания OpenAI анонсировала выход новой флагманской модели GPT-5.4, которая стала значительным шагом в эволюции ИИ-систем. Эта версия радикально отличается от предшественников, так как в ней объединены возможности универсальной модели GPT-5.2 и специализированной кодировочной GPT-5.3-Codex. Такой подход позволяет избавиться от необходимости выбирать между «умным» чат-ботом и кодогенератором — теперь это единое решение.

Существенным техническим улучшением стало расширение контекстного окна до 1,05 миллиона токенов — рост в 2,5 раза по сравнению с GPT-5.2. Благодаря этому GPT-5.4 может обрабатывать значительно большие объемы информации за один сеанс, что особенно важно для сложных и многоэтапных задач. Стоимость использования через API установлена на уровне $2,50 за миллион входных и $15 за миллион выходных токенов.

Главная инновация, которая выделяет GPT-5.4 среди других моделей OpenAI, — это возможность управления компьютером. Модель теперь способна взаимодействовать с пользовательскими интерфейсами: читать скриншоты, нажимать кнопки, заполнять формы и проверять результат операций. Раньше такие функции были доступны лишь в экспериментальных версиях, теперь же они интегрированы в основную модель, что расширяет спектр её практического применения.

Кроме того, введена система поиска инструментов (tool search), которая подгружает нужные функции по запросу, а не загружает их все одновременно. Это решение снижает затраты токенов и повышает точность выбора инструментов в сложных многоагентных сценариях.

На специализированных бенчмарках GPT-5.4 показала значительный прирост производительности именно в агентных задачах. Например, на OSWorld-Verified точность выросла с 47,3% до 75%, на BrowseComp — с 65,8% до 82,7%, а на GDPval — с 70,9% до 83%. В тестах SWE-Bench Pro при этом улучшения были менее выраженными — 57,7% против 55,6% у предшественника. Одновременно введён режим «экстремального мышления» с расширенным уровнем рассуждений, который требует более интенсивных вычислительных ресурсов для решения комплексных задач.

Для поддержки длительных агентов и многошаговых сценариев GPT-5.4 получила встроенную поддержку компакции — механизма сжатия контекста, который позволяет сохранять ключевую информацию и не терять её по мере увеличения длины сессии.

Модель стала дефолтной в API и интегрирована в Codex. В рамках ChatGPT используется интеллектуальный роутер, который распределяет запросы между Instant, Thinking и Pro-версиями, оптимизируя работу в зависимости от сложности задачи.

Расширение контекстного окна до миллиона токенов позволяет OpenAI значительно приблизиться к уровню конкурентов, таких как Claude и Gemini, у которых уже есть такие большие окна. При этом объединение универсальной и кодерской модели в одной — это уникальное преимущество GPT-5.4, отсутствующее у других игроков на рынке.