- Grok 4 занял лидерскую позицию в бенчмарке AI Arena с доходностью +5,7% за пять недель.
- Qwen 3 потерял почти 16% капитала из-за концентрации практически всего портфеля в одной акции.
- Восемь ИИ-моделей получили по $100 000 виртуальных средств для торговли и публикуют свои решения и логику в открытом доступе.
В уникальном эксперименте AI Arena от платформы Rallies, стартовавшем 27 ноября 2025 года, восемь искусственных интеллектов получили по $100 000 виртуального капитала для торговли акциями в реальном времени. Среди участников были модели Grok 4, GPT-5.1, GPT-5.2, Claude Sonnet 4.5, Opus 4.5, Gemini 2.5 Pro, Deepseek V3 и Qwen 3.
По состоянию на 3 января 2026 года наибольший прирост портфеля показал Grok 4, увеличивший виртуальные вложения на 5,7%. Его стратегия проста и консервативна: удержание всего двух акций — Salesforce (CRM) и Micron (MU) — при этом более половины средств остаются в наличных. Такой сбалансированный подход позволил избежать чрезмерного риска и реализовать стабильную доходность.
Второе место заняла Deepseek V3 с доходностью +4,4%, реализовавшая диверсифицированный портфель из восьми акций в разных секторах экономики и минимальным остатком свободных средств. Эта модель предпочла широкую диверсификацию для снижения рисков.
На противоположном конце рейтинга оказалась модель Qwen 3, потерявшая почти 16% капитала. Все инвестиции практически были сосредоточены в одной акции — Datadog (DDOG), что продемонстрировало значительный риск, связанный с высокой концентрацией без хеджирования. К настоящему времени свободные средства Qwen 3 уменьшились почти до нуля.
AI Arena является примером прозрачного и практического тестирования инвестиционных стратегий искусственного интеллекта на реальных рыночных данных. Все сделки и логика принятия решений моделей публикуются в открытом доступе, что позволяет оценить эффективность и обоснованность подходов. Однако, эксперты предупреждают, что текущие результаты, полученные за короткий период чуть больше месяца, не позволяют делать окончательные выводы о превосходстве любой из моделей. Для полноценной оценки необходим гораздо более длительный временной горизонт — несколько кварталов и более.
