ИИ не смогли правильно установить время на часах в новом тесте Обложка: Skyread

ИИ не смогли правильно установить время на часах в новом тесте

Новости
Главное:

  • Исследователь Брайан Мур запустил бенчмарк AI World Clocks, в котором девять различных ИИ-моделей попытались создать часы с правильным отображением времени в HTML.
  • Ни одна из моделей, включая GPT-3.5, Grok 4 и GPT-5, не смогла постоянно правильно выставлять стрелки на часах каждую минуту.
  • Промпт для моделей был крайне простым и не содержал подробных инструкций по вычислению углов стрелок и проверке результата, что иллюстрирует сложности при работе с неполными запросами от пользователей.

Брайан Мур представил новый бенчмарк AI World Clocks, цель которого — проверить способности различных поколений искусственного интеллекта создавать в HTML часы с правильным временем. В испытании приняли участие девять моделей ИИ, от GPT-3.5 до новейших Grok 4 и GPT-5. По условиям эксперимента, каждую минуту моделям предоставляется новый код, который отличается от предыдущего, и они должны корректно отобразить стрелки часов в соответствии с изменившимся временем.

Результаты оказались неоднозначными: несмотря на эстетически привлекательный дизайн, ни одна из моделей не смогла каждый раз правильно установить стрелки, показывая точное время. Это связано с использованием очень простого промпта, в котором ИИ было поручено просто «сделать часы» без указаний о том, как правильно вычислить углы стрелок, ориентировку по CSS или методы верификации результата. В условиях ограниченного числа токенов нейросети не выполняли проверку собственной математики и редко исправляли ошибки.

Данный эксперимент подчёркивает важную проблему взаимодействия пользователя с ИИ — многие «казуальные» пользователи дают неполные или слишком обобщённые запросы, ожидая точный и качественный результат. В будущем для повышения эффективности работы искусственного интеллекта разработчикам предстоит не только совершенствовать сами модели, но и улучшать интерфейс взаимодействия. Так, платформы должны обучить ИИ распознавать недостаточную полноту запросов, задавать уточняющие вопросы и корректировать задания, что позволит избежать подобных ошибок и повысить точность исполнения.

Таким образом, несмотря на впечатляющий прогресс в области ИИ, задачи, требующие правильного понимания математики и логики в условиях ограниченного текста запроса, по-прежнему остаются непростыми и требуют комплексного подхода к разработке как моделей, так и способов их использования конечными пользователями.

Tagged