- Стартап Poetiq из Майами достиг 54% точности на бенчмарке ARC-AGI-2, преодолев порог 50% и обойдя Gemini 3 от Google.
- Poetiq использует метасистему, которая оркеструет работу нескольких существующих больших языковых моделей, повышая точность и снижая стоимость задач.
- Подход Poetiq не зависит от конкретной модели и может масштабироваться на реальные задачи, то есть ориентирован на проверку корректности, а не только на генерацию ответов.
Команда Poetiq, состоящая из шести участников, ранее работавших в DeepMind, добилась заметного прорыва в области искусственного интеллекта, преодолев отметку в 50% точности на бенчмарке ARC-AGI-2. Этот тест на абстрактное мышление считается одним из самых сложных для современных ИИ-систем: он требует не просто угадывания, а настоящего понимания правил решения задач, которые напоминают классические тесты на IQ с визуальными головоломками.
Результат Poetiq — 54% точности с затратами всего $30,57 на задачу — значительно превосходит предыдущий рекорд Gemini 3 Deep Think от Google, который показал 45,1% при затратах $77,16 на задачу. Таким образом, Poetiq смогла не только повысить точность почти на девять процентных пунктов, но и сократить стоимость задач более чем вдвое. При этом человеческий уровень решения этих задач по-прежнему остается далеко впереди, составляя 100% по шкале ARC-AGI-2.
Интересно, что Poetiq не разработала свою собственную большую модель. Вместо этого они создали «метасистему» — интеллектуальную надстройку, которая связывает и координирует работу нескольких существующих языковых моделей, включая Gemini 3, GPT-5.1, Grok 4 Fast и другие. Эта система работает итеративно: она генерирует гипотезы, проверяет их на тестовых примерах, анализирует ошибки и усовершенствует решения до тех пор, пока не достигнет оптимального результата. Метасистема самостоятельно принимает решение о завершении рассуждений, чтобы оптимизировать потребление токенов.
Стоит отметить, что вся адаптация метасистемы выполнялась на открытых моделях. После релиза Gemini 3 Pro команда Poetiq смогла интегрировать ее в свою систему всего за несколько часов, что сразу принесло улучшение результатов. Это подтверждает высокую переносимость разработанного подхода и его универсальность — одна и та же стратегия рассуждения повышает эффективность сразу нескольких языковых моделей от разных разработчиков.
Хотя ARC-AGI-2 используется в академических целях, разработчики Poetiq уверены, что их метод масштабируется на прикладные задачи, такие как проверка кода, юридический анализ и диагностика, где главное — точность и корректность решений, а не объем генерируемого текста. Такой подход не только обещает повысить качество и экономичность ИИ-сервисов, но и создает независимость от конкретных провайдеров моделей: достаточно подключить новую модель как движок, чтобы сразу получить улучшение без необходимости переобучения.
В перспективе команда Poetiq намекает на изменение парадигмы в развитии искусственного интеллекта: вместо гонки за увеличением размеров моделей основное внимание будет уделяться их правильной оркестрации и организации глубинного рассуждения, что может значительно расширить возможности существующих систем и их практическое применение.
