Anthropic узнала, когда красивый код снижает бдительность пользователей ИИ

Главное:

Anthropic впервые количественно измерила уровень грамотности пользователей при работе с ИИ с помощью индекса AI Fluency Index.
Пользователи тщательно формулируют запросы к ИИ при генерации кода и документов, но при этом снижается их бдительность к возможным ошибкам и неточностям.
Итеративное взаимодействие с ИИ приводит к более осознанному и грамотному использованию модели, однако лишь в 30% случаев пользователи устанавливают правила диалога.

Компания Anthropic представила результаты исследования, в котором был разработан AI Fluency Index — первый количественный инструмент для оценки того, насколько грамотно люди используют искусственный интеллект. Анализ основывался на почти 10 тысячах анонимных диалогов с ИИ-моделью Claude, проведённых в январе 2026 года. Исследование применяло фреймворк 4D AI Fluency, включающий 11 поведенческих индикаторов, отражающих способности пользователей формулировать задачи, критически оценивать ответы и взаимодействовать с моделью.

Основной парадокс, выявленный Anthropic, касается взаимодействия с так называемыми артефактами — сгенерированным ИИ кодом, презентациями и документами. Пользователи, прилагающие усилия для чёткого уточнения цели запроса и формата ответа (увеличение показателей на 14-15 процентных пунктов), одновременно становятся менее внимательными к потенциальным пропускам контекста и реже проверяют факты. Чем более «готовым» и презентабельным кажется результат, тем меньше у пользователей желания подвергать его сомнению.

Другая важная закономерность связана с итеративной работой с ИИ: более 85% диалогов включали доработки и уточнения после первого ответа. Такие диалоги демонстрируют вдвое большую степень грамотного использования ИИ. Пользователи, которые не принимают ответ с первого раза, в 5,6 раза активнее ставят под сомнение рассуждения модели и в четыре раза заметнее выявляют недостающий контекст. В то же время лишь около трети пользователей задают модельному помощнику конкретные правила взаимодействия, например, просят объяснять ход мысли или возражать.

Исследование проводилось на основе 24 индикаторов, однако 13 из них — такие, как честность в атрибуции контента или оценка последствий использования ИИ — пока остаются за пределами анализа, так как не фиксируются в чатах. Аналитики подчёркивают, что выборка в основном состоит из опытных пользователей, что ограничивает обобщаемость выводов. Кроме того, отмечается, что корреляция между итерациями и грамотностью не обязательно свидетельствует о прямой причинно-следственной связи.

В дальнейшем Anthropic планирует регулярно публиковать обновлённые версии AI Fluency Index, детально сравнивая новичков и опытных пользователей, а также расширять исследование на специализированные модели, например Claude Code. Ранее компания уже исследовала влияние ИИ на навыки программирования и выявила, что разработчики, полностью делегирующие написание кода ИИ, демонстрируют снижение результатов.