GPT-4 превосходит людей в креативности, уступая самым талантливым Обложка: Skyread

GPT-4 превосходит людей в креативности, уступая самым талантливым

Новости
Главное:

  • GPT-4 Turbo демонстрирует креативность выше среднего уровня человека, но уступает лучшим 10% людей.
  • Используемый тест креативности измеряет оригинальность семантической дистанции между словами без субъективной оценки.
  • LLM проявляют стабильность в ответах и используют стратегии имитации креативности, тогда как у людей выше вариативность и уникальность.

В журнале Nature Human Behaviour было опубликовано масштабное исследование, посвящённое сравнительному анализу креативности людей и крупных языковых моделей (LLM). Учёные из Гонконгского университета и Северо-Западного университета провели эксперимент, в котором приняли участие 9198 человек и восемь современных LLM, включая GPT-4 Turbo, Claude 3.5 Sonnet и китайскую Ernie 4.0. В общей сложности модели были протестированы 215 542 раза на задании дивергентного мышления.

Для оценки креативности применялся Divergent Association Task — тест, подразумевающий подбор десяти максимально различающихся по смыслу существительных. Такой подход позволил объективно измерять креативность на основе семантического расстояния без участия субъективных жюри и без взаимных оценок между людьми и моделями.

Результаты показали, что GPT-4 Turbo достиг 81.78 балла, превзойдя средний человеческий результат, который колебался в диапазоне 78–80 баллов. Модель Claude 3.5 Sonnet набрала 80.01, а китайская Ernie 4.0 заняла последнее место — 76.17 балла. Однако при сравнении лучших 10% участников и топ-10% ответов GPT-4 Turbo люди одержали уверенную победу с высокой статистической значимостью (p < 0.001).

Главное отличие заключалось не столько в средних показателях, сколько в разбросе результатов: у людей вариативность значительно выше — среди них встречаются как слабые, так и очень выдающиеся результаты. Модели же демонстрируют стабильные средние значения без крайних проявлений. Помимо того, люди генерируют больше уникальных слов, в то время как LLM часто повторяют одни и те же выражения, например «happiness» или «freedom».

Авторы исследования описали такую особенность моделей термином «креативная мимикрия». Вместо подлинного понимания смысла LLM используют две основные стратегии копирования оригинальности: отбор редких слов из обучающего корпуса и управление параметром температуры для введения случайности в ответы. Тем не менее, изменение температуры имеет предел — после него генерация начинает ухудшаться, появляются бессмысленные и искажённые слова.

Отдельно учёные проверили эффективность популярных промптов, нацеленных на улучшение креативности (например, «думай как Стив Джобс»), и обнаружили, что такие инструкции не только не помогали, но даже снижали показатели, ограничивая словарь модели на конкретной тематике. Промпты с демографическими указаниями показывали неоднозначные результаты, в том числе снижение баллов при указании расовой принадлежности, что связано с наличием социальных стереотипов, встроенных в модели.

Практическое значение исследования заключается в том, что языковые модели хорошо подходят для выполнения рутинных творческих задач и быстрого достижения среднего уровня креативности. Однако для генерации по-настоящему прорывных идей пока необходим именно человеческий фактор — именно люди обеспечивают редкие, но значимые скачки в оригинальности.

Tagged