Героиня прикована к полу, но спускается по лестнице: анализ ИИ-логики

Главное:

В бенчмарке по оценке навыков написания коротких рассказов были протестированы три модели ИИ: Kimi K2.5 набрала 8,07 балла, Qwen3 Max — 7,84, MiniMax-M2.1 — 7,78.
ИИ часто допускают ошибки в логической целостности текста, например, нарушают физическую непрерывность, неправильно считают и путают предметы между персонажами.
Большинство ошибок связаны с длительным следованием сюжету и смысловой перегрузкой, несмотря на то, что ИИ хорошо справляются с диалогами, стилем и атмосферой.

Исследователь Леч Мазур представил результаты тестирования трёх моделей искусственного интеллекта, специализирующихся на генерации коротких рассказов. В рамках бенчмарка оценивались их языковые навыки и способность поддерживать логическую связность произведений. Модели Kimi K2.5, Qwen3 Max и MiniMax-M2.1 показали достойные результаты, однако сама ценность исследования заключается в детальном разборе обнаруженных ошибок, что позволяет глубже понять сильные и слабые стороны современных ИИ-систем.

Одной из ключевых проблем стало нарушение физической непрерывности событий в сюжете. Например, в рассказе героиня первоначально описывается как «прикованная к полу кандалами», однако спустя некоторое время без логического обоснования «спускается по лестнице», а цепь при этом остаётся в другом месте. Это свидетельствует о том, что модели хорошо управляют локальным контекстом, но теряют нить повествования при большом объёме информации.

Кроме того, были выявлены ошибки в математических вычислениях, используемых внутри сюжета. Так, падение капель воды описано как «капля падает каждые 7 секунд — 13 капель в минуту», что не соответствует реальному подсчету (около 8,6 капель в минуту). Это подчёркивает необходимость дополнительной проверки вычислений, если они влияют на сюжет.

Путаница с отслеживанием объектов также оказалась частой ошибкой: предметы переходят из рук в руки без упоминания, что нарушает логику повествования и мешает восприятию текста читателем.

Наконец, ИИ иногда генерируют смысловую перегрузку — использование красивых, но бессмысленных выражений, таких как «оперативно-мягкая натура» или «бессмертная прерывистость». Если фраза вызывает затруднения при прочтении или требует повторного анализа, скорее всего, она является пустой по содержанию.

Вывод из работы Леча Мазура однозначен: большие языковые модели (LLM) отлично справляются с построением стиля, диалогов и атмосферности текста, но испытывают трудности с сохранением логической последовательности на всём протяжении рассказа. Чтобы эффективно использовать ИИ в творческом процессе, необходима тщательная редактура, ориентированная на последовательность и проверку деталей. В таком сотрудничестве искусственный интеллект может стать ценным соавтором, дополняющим человека творческими идеями.