Claude Opus 4.6 лидер рейтинга ИИ-дизайна, Anthropic заняла 3 места в топ-5

Главное:

Модель Claude Opus 4.6 заняла первые два места на бенчмарке Design Arena, набрав 1385 и 1377 баллов Elo.
В топ-5 рейтинга также вошли другие версии моделей Anthropic, включая Claude Opus 4.5 на пятом месте.
GPT-5.2 и GPT-5 от OpenAI расположились значительно ниже — на 11-м и 19-м местах соответственно.

На платформе Design Arena, где пользователи вслепую оценивают визуальные интерфейсы, созданные искусственным интеллектом, модель Claude Opus 4.6 заняла лидирующие позиции. Версия без режима рассуждений набрала максимальное количество очков — 1385 Elo, а её вариант с активированным режимом Thinking показал очень близкий результат, уступив всего 8 баллов и став второй с 1377 баллами. Интересно, что такой результат демонстрирует: высокая функциональность в плане «рассуждений» не всегда гарантирует лучший визуальный дизайн.

В пятёрке лучших оказалась ещё одна модель из семейства Anthropic — Claude Opus 4.5, занявшая пятое место с 1338 баллами. Между версиями Claude расположились Kimi K2.5 и Gemini 3 Pro Preview, которые получили 1344 балла. Сам бенчмарк построен на принципе парного сравнения — пользователям предлагается выбрать лучший вариант интерфейса из двух анонимных образцов, созданных по одинаковому запросу. На момент публикации было собрано свыше 800 тысяч голосов, что обеспечивает статистическую значимость результатов.

Стоит отметить, что модели GPT средней и высокой мощности (GPT-5.2 XHigh и GPT-5 High) расположились на 11 и 19 местах соответственно, демонстрируя значительно худшее качество визуального исполнения по сравнению с лидерскими решениями Anthropic.

Создатели Design Arena, выпускники Гарварда, отметили, что одной из мотиваций создания бенчмарка стало заметное прошлогоднее отставание языковых моделей в плане дизайна. Тогда интерфейсы ИИ казались однотипными и искусственными: одинаковые градиенты и формы указывали на «зловещую долину» визуального восприятия. Очевидно, модель Claude смогла значительно преодолеть этот барьер, показав устойчивое доминирование в 72 из 145 турниров и высокие позиции в остальных.

В итоге результаты Design Arena свидетельствуют о том, что AI-дизайн продолжает стремительно развиваться, и модели Anthropic сейчас задают высокие стандарты в этой области. Это открывает новые возможности для использования ИИ в создании интерфейсов, приближая их качество к уровню профессиональных дизайнеров.