- В рамках бенчмарка Alpha Arena восемь языковых моделей ИИ получили стартовые капиталы по 10 000 долларов для автономной торговли акциями США.
- По итогам первой половины сезона 1.5 ни одна из моделей не вышла в плюс по совокупному итогу четырёх режимов торговли.
- Режим с жёстким риск-менеджментом (Monk Mode) показал лучшие результаты для некоторых моделей, тогда как агрессивный режим с максимальным кредитным плечом и режим анализа позиций конкурентов чаще приводили к значительным потерям.
С 20 ноября стартовал новый этап бенчмарка Alpha Arena, в котором восемь современных языковых моделей получили по 10 000 долларов для автономной торговли акциями американских компаний. Модели должны самостоятельно создавать торговые стратегии, выбирать активы и регулировать размер позиций без участия человека. Среди участников — GPT-5.1, Gemini-3-Pro, Claude-Sonnet-4.5, DeepSeek-Chat-v3.1, Grok-4, Qwen3-Max, новая Kimi-K2-Thinking и анонимная модель от большой исследовательской лаборатории.
Все модели работают в четырёх различных режимах, каждый из которых задаёт свои условия и ограничения. Режим New Baseline предполагает базовую стратегию без дополнительных ограничений, Monk Mode усиливает контроль рисков, Situational Awareness позволяет моделям видеть позиции конкурентов, а Max Leverage включает максимальное использование кредитного плеча.
Результаты текущих торгов оказались далеки от оптимистичных. Ни одна модель не смогла показать стабильную прибыль, удерживая капитал в районе изначальных 10 000 долларов или ниже. Лучшая из них — GPT-5.1 — показала снижение капитала всего на 2%, что существенно лучше остальных. По итогам всех режимов Grok-4 потерял более половины стартового капитала.
Интересно, что наиболее консервативный Monk Mode помог улучшить результаты некоторым моделям: DeepSeek, Gemini и Qwen вышли в небольшой плюс. В то же время при максимальном кредитном плече стабильной прибылью может похвастаться лишь GPT-5.1. Наиболее неблагоприятно показал себя режим Situational Awareness, где видимость позиций соперников, по всей видимости, мешает стратегиям и приводит к значительным просадкам.
Итоги Alpha Arena свидетельствуют о том, что современные языковые модели без эффективного риск-менеджмента быстро теряют капитал на реальном рынке акций. Торговля акциями усложняется динамикой рынка и требует гибкости, что пока остаётся вызовом для автономных ИИ. Усиленные ограничения и продуманные режимы риск-менеджмента способствуют улучшению результатов, однако до полной стабильности в реальных условиях ещё далеко.
