SkillsBench: навыки работают лучше, если их оформил человек

Главное:

Исследователи разработали бенчмарк SkillsBench для оценки эффективности скиллов в ИИ-агентах.
Скиллы, созданные людьми, повышают качество решения задач ИИ на 16.2 процентных пункта в среднем, тогда как самогенерированные скиллы не дают положительного эффекта.
Компактные скиллы из 2-3 модулей работают лучше длинных документаций, а небольшие модели с скиллами могут превзойти по результатам более крупные модели без них.

Недавно исследователи представили первый в своём роде бенчмарк SkillsBench, предназначенный для систематической оценки влияния «скиллов» — наборов инструкций, скриптов и подсказок — на эффективность решения задач ИИ-агентами. Такие скиллы используются в некоторых современных продуктах, например, Claude Code, Gemini CLI и Codex CLI, однако их реальная эффективность ранее не подвергалась комплексному анализу.

В рамках исследования было собрано 86 задач из 11 различных областей, включая разработку программного обеспечения и медицину. Для оценки были привлечены 105 экспертов, а тесты проводились на 7 моделях ИИ с выполнением в трёх режимах: без скиллов, со скиллами, написанными людьми, и со скиллами, созданными искусственным интеллектом самостоятельно. Совокупно было выполнено более семи тысяч итераций.

Результаты оказались показателны: скиллы, разработанные людьми, в среднем увеличивают показатель успешного прохождения задач (pass rate) на 16.2 процентных пункта. При этом в 16 из 84 задач наблюдалось ухудшение результатов. Скиллы, сгенерированные ИИ самостоятельно, статистически не улучшали результаты, а даже немного понижали их в среднем на 1.3 процентных пункта. Это свидетельствует о том, что модели пока не способны эффективно создавать и использовать собственные инструкции.

Дополнительный интерес вызвали два наблюдения. Во-первых, компактные скиллы, состоящие из двух-трёх модулей, показывают лучшие результаты, чем детальные и развернутые документации. Во-вторых, небольшие модели с применением скиллов способны превосходить более крупные модели без них. Так, модель Haiku 4.5 с скиллами добилась 27.7% успешных решений, обогнав модель Opus 4.5 без скиллов (22.0%).

Для тех, кто заинтересовался деталями, полное исследование и все результаты доступны в открытом доступе по ссылке: https://arxiv.org/pdf/2602.12670.

Таким образом, исследование SkillsBench подтверждает важность человеческого фактор а при создании инструкций для ИИ-агентов и указывает на потенциал компактных скиллов для существенного улучшения их производительности. Это открывает перспективы для дальнейших разработок и оптимизации взаимодействия между пользователями и системами искусственного интеллекта.