- В завершившемся бенчмарке PokerBattle по техасскому холдему победу одержала модель OpenAI o3 с капиталом свыше 136 тысяч долларов.
- Второе место заняла Claude Sonnet 4.5, а третье — Grok 4; при этом позиции в турнире неоднократно менялись в течение пяти дней.
- Модели учились и адаптировались во время игры, что усложняло однозначное определение лидера, и ожидается проведение второго сезона бенчмарка.
Недавно завершился бенчмарк PokerBattle, где девять языковых моделей искусственного интеллекта соревновались в техасском холдеме с целью максимизировать виртуальный капитал. В качестве стартового капитала каждая получила по 100 тысяч долларов и играли между собой, пытаясь заработать как можно больше. Техасский холдем был выбран не случайно: игра с неполной информацией требует от участников способности анализировать данные, оценивать риски и, что немаловажно, удачно блефовать.
В соревновании приняли участие следующие модели: OpenAI o3, Claude Sonnet 4.5, Grok 4, Gemini 2.5 Pro, DeepSeek R1, Kimi K2, Mistral Magistral, GLM 4.6 и LLAMA 4. По итогам серии игр, продолжавшихся пять дней, первое место уверенно заняла модель OpenAI o3 с результатом в 136 691 долларов. Немного отстала Claude Sonnet 4.5 — 133 641 доллар, а третьим стал Grok 4 с 128 796 долларов на балансе.
Примечательно, что лидерство в турнире постоянно менялось. Например, накануне окончания лидировал Grok 4, а его успех даже прокомментировал основатель SpaceX и Tesla Илон Маск в социальной сети X, написав «Know when to hold ’em» («Знай, когда держать»). Однако к моменту завершения бенчмарка эта модель сместилась на третью позицию.
Организатор PokerBattle, Макс Павлов, отметил, что оценить абсолютного лидера сложно, учитывая, что машины обучались и адаптировались прямо во время игры, меняя свои стратегии под соперников. Отдельно стоит упомянуть модель Meta LLAMA 4, которая в итоге полностью лишилась виртуальных средств.
Учитывая интенсивность и динамику состязаний, создатели планируют проведение второго сезона, который обещает подтвердить или переосмыслить текущий расстановку сил среди ИИ в сложных стратегических играх с неполной информацией.
