- Представлен визуальный бенчмарк ClockBench для оценки способности моделей машинного обучения читать аналоговые часы.
- Наилучшие результаты демонстрируют модели Gemini 2.5 Pro и o3 Pro, верно отвечая только на 13,3% вопросов.
- Человеческий уровень точности значительно выше — 89,1% правильных ответов.
Недавно исследователи представили ClockBench — уникальный визуальный бенчмарк, предназначенный для проверки и сравнения навыков моделей машинного обучения в считывании и обработке информации с аналоговых часов. Данный инструмент включает в себя 180 изображений аналоговых часов, разделённых на 36 различных циферблатов с пятью примерами каждого типа. Для каждого изображения предлагается четыре вопроса, которые требуют от моделей определить текущее время, выполнить операции сложения или вычитания времени, а также произвести конвертацию времени между часовыми поясами или указать положение стрелок.
Результаты тестирования моделей свидетельствуют о значительном отставании машинного интеллекта от человеческого восприятия — люди во время эксперимента достигли точности в 89,1% правильных ответов. Лучшие среди ИИ-моделей показали результат преимущественно на уровне 13,3%. Так, модели Gemini 2.5 Pro от Google и o3 Pro от OpenAI разделили лидерство с одинаковым показателем, что подчеркивает сложность поставленной задачи для современных алгоритмов.
Ниже представлены результаты ведущих моделей по точности ответов в процентах:
- Gemini 2.5 Pro (Google) — 13,3%
- o3 Pro (OpenAI) — 13,3%
- Gemini 2.5 Flash (Google) — 10,5%
- o3 High (OpenAI) — 9,1%
- GPT-5 серия (OpenAI) — в диапазоне от 8,4% до 2,1%
- Claude Opus 4.1 (Anthropic) — 5,6%
- Qwen 2.5-VL-72B (Alibaba) — 4,9%
- Другие модели — менее 5%
Авторы бенчмарка опубликовали на платформе GitHub ограниченный набор из 10 тестовых изображений, чтобы исследователи могли ознакомиться с примером заданий, но при этом не раскрывать полный датасет. Это сделано с целью предотвратить адаптацию и обучение моделей специально под ClockBench, что помогло сохранить объективность оценки их возможностей.
ClockBench даёт важное представление о текущих вызовах в развитии моделей искусственного интеллекта, наглядно демонстрируя, что даже в казалось бы простых задачах, связанных с интерпретацией визуальной информации и пониманием времени, искусственный интеллект пока значительно уступает человеческому восприятию. Это открывает новые перспективы для совершенствования алгоритмов и повышения их универсальности в обработке сложных визуальных данных.
