Когда AI начнёт работать месяц без поддержки — прогноз METR на 2027 год Обложка: Skyread

Когда AI начнёт работать месяц без поддержки — прогноз METR на 2027 год

Новости
Главное:

  • Новый бенчмарк METR измерил способность AI-агентов автономно выполнять задачи разной длительности.
  • Крупнейшие модели в 2025 году решают задачи с продолжительностью до 5,3 часов с вероятностью успеха 50%.
  • При сохранении текущих темпов прогресса AI сможет автономно выполнять проекты длительностью в месяц уже к 2027 году.

Организация METR представила обновлённые данные по индексу Time Horizon, который оценивает продолжительность автономной работы AI-систем над задачами различных уровней сложности. Согласно последним измерениям, лидером стал Claude Opus 4.5 с возможностью надёжно решать задачи продолжительностью около 5,3 часа с 50% вероятностью успеха. Вслед за ним идёт Gemini 3 Pro, достигающий примерно 4 часов автономной работы.

Важно отметить, что при более строгом критерии 80-процентного горизонта успеха, продолжительность сокращается — до 42 минут у Claude Opus 4.5 и 43 минут у Gemini 3 Pro. Для сравнения, в 2019 году модели вроде GPT-2 справлялись только с задачами, требующими около 2 секунд времени у человека-эксперта. К 2023 году GPT-4 смог увеличить этот показатель до трёх–четырёх минут, а в феврале 2025-го Claude 3.7 Sonnet преодолел отметку в 1 час.

Методика измерений состоит в сравнении с человеком. Исследователи предоставляют моделям набор из 228 задач различной сложности, время решения которых фиксировалось у экспертов. Затем строится логистическая регрессия, показывающая, при какой длительности задачи в человеко-минутах AI достигает 50% успеха.

Важной тенденцией стало ускорение прогресса: с 2019 по 2025 год время, за которое AI может надёжно выполнять задачи, удваивалось примерно каждые 7 месяцев; начиная с 2023-го — уже каждые 4 месяца. Если такой тренд сохранится, то к 2027 году AI сможет выполнять задачи, сопоставимые с месячными проектами, что эквивалентно примерно 167 рабочим часам автономной работы.

Вместе с тем, исследователи подчёркивают, что в текущем тестовом наборе недостаточно задач длительностью более 8 часов, и что развитие моделей происходит быстрее, чем их бенчмаркинг успевает за обновлениями, что вносит некоторую неопределённость в прогнозы.

Таким образом, наблюдается стремительный рост возможностей искусственного интеллекта в длительном самостоятельном решении задач, что открывает новые перспективы в автоматизации сложных и долгосрочных проектов.

Tagged