Сэм Альтман объяснил, по каким критериям оценят GPT-6

Новости
Главное:

  • OpenAI разрабатывает новую метрику GDPval для оценки GPT-6 на основе создаваемой ценности, а не стандартных тестов.
  • GPT-6 будет ориентирован на выполнение многошаговых сценариев и долгосрочной работы агентов, представляющих собой автоматизированных помощников.
  • Идея «компаний с нулевым штатом» — бизнесов, где операционные задачи выполняют программные агенты — рассматривается как возможная практическая платформа для тестирования GPT-6.

Глава OpenAI Сэм Альтман в недавнем интервью сообщил о принципиально новом подходе к оценке следующего поколения языковых моделей, условно называемого GPT-6. В отличие от традиционных бенчмарков, которые проверяют способность моделей решать краткие тестовые задачи, команда OpenAI намерена сосредоточиться на измерении реальной пользы ИИ для пользователей и бизнеса. Для этого разрабатывается новая метрика — GDPval, отражающая создаваемую моделью ценность в выполнении комплексных, многоэтапных задач.

Альтман подчеркнул, что современные тесты не способны адекватно оценить потенциал ИИ как надежного помощника в продолжительных рабочих процессах. В GPT-6 большое внимание уделяется способности агентов — программных помощников — самостоятельно работать над задачами продолжительностью в часы и даже дни. Это должно повысить эффективность автоматизации и устойчивость ИИ к сбоям, а также улучшить интеграцию с внешними инструментами.

По мнению главы OpenAI, такие агенты не являются просто демонстрацией технических возможностей, а формируют основу для будущих производственных процессов компаний. Особый интерес вызывает концепция так называемых «компаний с нулевым штатом», в которых людской труд сведен к постановке целей, а операционные функции выполняются полностью программными агентами. Альтман отметил, что подобный формат бизнеса может появиться раньше ожиданий и стать ключевым полигоном для обкатки и оценки новых моделей, включая GPT-6.

Таким образом, OpenAI намерена сместить акцент с количественных показателей на практическую эффективность ИИ, что отражает эволюцию отрасли в сторону более глубокой интеграции искусственного интеллекта в повседневную деятельность и бизнес-процессы.

Tagged