- Anthropic представила Claude Opus 4.6, который установил новый рекорд по времени автономной работы в бенчмарке METR Time Horizon 1.1 — 14,5 часов на 50%-ном временном горизонте.
- Предыдущий лидер, GPT-5.2 (high), имел показатель 6 часов 34 минуты, однако доверительный интервал новых данных очень широк — от 6 до 98 часов.
- Бенчмарк METR начал терять дифференцирующую способность из-за быстрого прогресса ИИ и насыщения набора задач; модели решают большинство тестов слишком легко.
Организация METR опубликовала результаты оценки новой модели искусственного интеллекта Claude Opus 4.6 от компании Anthropic, продемонстрировавшей рекордное время автономной работы на бенчмарке Time Horizon 1.1. Этот показатель измеряет сложность задач, которые ИИ-агенты могут успешно решать, выражая время в эквиваленте человеческого эксперта. Новая модель показала 50%-й временной горизонт около 14,5 часов, что вдвое превышает предыдущий рекорд GPT-5.2 (high), зафиксированный на уровне 6 часов 34 минуты.
Тем не менее, исследователи отмечают, что прямое буквальное толкование данной цифры затруднено. Верхняя граница 95%-го доверительного интервала достигает 98 часов — времени, превышающего любую из задач в тестовом наборе. Такая неопределённость объясняется насыщенностью набора испытаний, поскольку современные модели справляются с большинством задач слишком легко, а экстраполяция на более сложные сценарии становится неточной. Таким образом, способность бенчмарка различать уровень лучших ИИ-агентов стала ограниченной. Однако при более жёстком пороге надежности — 80%-м горизонте — Opus 4.6 всё ещё демонстрирует лидерство с показателем 1 час 3 минуты, опережая GPT-5.2 (high) с результатом 55 минут.
В январе METR обновил набор задач до версии 1.1, добавив 34% новых тестов и повысив количество длительных задач (более 8 часов) вдвое. Эта мера помогла сузить доверительные интервалы, однако не разрешила фундаментальную проблему: скорость прогресса ИИ опережает возможности исследователей создавать адекватные тесты. С 2023 года временной горизонт удваивается примерно каждые четыре месяца, что гораздо быстрее первоначальной оценки в семь месяцев.
Парадоксальная ситуация заключается в том, что основной инструмент для оценки прогресса ИИ — бенчмарк METR — перестал адекватно отражать реалии именно тогда, когда развитие систем ускорилось до беспрецедентных скоростей. MIT Technology Review охарактеризовал график METR как «самый неправильно понимаемый график в ИИ», подчеркивая, что показатель 14,5 часов не означает, что модель работает почти сутки без перерыва, а лишь указывает на задачи, требующие от человека эксперта столько времени. Кроме того, задачи в наборе связаны с программированием, машинным обучением и кибербезопасностью и заметно упрощены по сравнению с реальной профессиональной деятельностью.
В итоге появилось новое обсуждение о допустимости доверия свежим результатам METR и необходимости пересмотра методологии измерения возможностей ИИ в условиях стремительного прогресса. Исследователи и эксперты потребуются новые инструменты, способные лучше отражать реальный уровень развития и надёжность автономных систем.
