- OpenAI снизила количество галлюцинаций в GPT-5.2 на 30–50% при включённом поиске.
- Ошибка с крупными фактологическими промахами сократилась с 8,8% до 5,8% в GPT-5.2 Thinking.
- Дата актуальности знаний модели увеличена до 31 августа 2025 года, улучшена по сравнению с GPT-5.1.
Компания OpenAI представила обновлённую версию своей языковой модели GPT-5.2, в которой существенно уменьшено количество ошибок и галлюцинаций при ответах на запросы. Совместно с разработчиками было проведено тестирование в условиях, приближённых к реальным диалогам ChatGPT, где особое внимание уделялось точности фактов, приводимых моделью. В качестве оценки использовалась специализированная модель, имеющая доступ к интернету, что позволило более объективно измерить качество ответов.
Ключевым достижением GPT-5.2 Thinking стало снижение доли ошибочных утверждений до 0,8% при активированном поиске, что почти вдвое меньше показателей предыдущей версии GPT-5.1 с 1,5%. Если рассматривать более строгую метрику – наличие хотя бы одной крупной фактической ошибки в ответе, то улучшение составило примерно треть: показатель упал с 8,8% до 5,8%. Примечательно, что в пяти ключевых тематических категориях, включая новости и актуальные события, модель демонстрирует ошибочность менее 1%, что указывает на рост надёжности в самых значимых для пользователей сферах.
Без использования встроенного поиска ситуация существенно меняется — уровень ошибок в GPT-5.2 Thinking составляет 3,1% по фактам и 10,9% по серьёзным промахам. Однако даже в таком режиме текущая версия превосходит предшественника, улучшаясь около 14%. Параллельно с этим была расширена дата актуальности знаний с 1 октября 2024 года до 31 августа 2025 года, что позволяет модели оперировать более свежей информацией.
Если сравнивать не с версией GPT-5.1, а с оригинальной GPT-5, то заметно сложное, нелинейное развитие показателей: версия GPT-5 демонстрировала 1,1% ошибочных фактов с поиском, GPT-5.1 – ухудшение до 1,5%, и только GPT-5.2 добилась рекордного уровня в 0,8%. Без поиска улучшения шли более плавно: от 4,7% в GPT-5 до 3,1% в GPT-5.2. На основании этих данных эксперты рекомендуют обязательно использовать поиск при запросах, связанных с текущими событиями и свежими фактами, чтобы добиться максимальной достоверности ответов.
