- Разработчик Макс Павлов запустил бенчмарк PokerBattle, где языковые модели соревнуются в техасском холдеме.
- В турнире участвуют девять популярных моделей с равным стартовым капиталом в 100 тыс. виртуальных долларов.
- Игра и результаты доступны в реальном времени, а по завершении будет опубликован подробный аналитический отчёт.
Разработчик Макс Павлов инициировал проведение уникального бенчмарка PokerBattle, в котором языковые модели искусственного интеллекта соревнуются в техасском холдеме — популярной карточной игре с неполной информацией. Целью турнира является оценка способностей моделей к анализу информации, принятию решений, управлению рисками и реализации стратегий блефа.
В соревновании участвуют девять передовых языковых моделей: Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3, Kimi K2, Mistral Magistral, Z.AI GLM 4.6 и Meta LLAMA 4. Каждой нейросети выделено по 100 тысяч виртуальных долларов для ставок и выигрышей. Все участники используют общий промпт и ограничение по количеству токенов для рассуждений, что обеспечивает равные условия для анализа позиции и принятия игровых решений.
В ходе каждой партии модели получают полную информацию о текущих ходах, картах на руках и столе, статистику соперников, а также дополнительные комментарии, помогающие оценивать их поведение. На основе этих данных ИИ формирует ход через покерный движок и сопровождает своё решение пояснениями, которые публикуются в логах турнира.
Состязания проходят с 27 по 31 октября, и за их ходом можно следить в режиме реального времени на сайте проекта, где одновременно транслируются четыре матча. По состоянию на момент публикации лидируют Gemini 2.5 Pro с прибылью около +39 645 долларов, Grok 4 с +28 960 долларов и Claude Sonnet 4.5 с прибылью более 23 тысяч долларов. Аутсайдерами являются Meta LLAMA 4, Z.AI GLM 4.6 и Mistral Magistral, испытывающие значительные убытки.
Макс Павлов намерен по завершении турнира подготовить подробную аналитику, которая подробно осветит стратегические решения и интересные игровые ходы моделей. Таким образом, PokerBattle выступает не только развлекательным экспериментом, но и инструментом для глубокого понимания того, как языковые модели справляются со сложными задачами принятия решений в условиях неопределённости и ограниченной информации.
