Пользователь проверил, насколько Claude назовет 37 500 случайных имён

Главное:

Разработчик Бенджи Смит провёл эксперимент с языковыми моделями Claude, попросив их назвать 37 500 случайных имён, но ИИ сильно повторял одни и те же варианты, например, «Маркус».
В ходе теста разнообразие имён оказалось крайне ограниченным: общая энтропия моделей была низкой, что свидетельствует о предсказуемости и предвзятости в выборе имён.
Исследователь отметил, что для развития творческого потенциала ИИ необходимо научить их использовать случайность и терпимость к неопределённости, а не только максимизировать согласованность ответов.

Разработчик Бенджи Смит провёл исследование, в котором проверял способность языковых моделей семейства Claude генерировать большое количество случайных имён. В эксперименте использовались пять вариантов моделей Claude (Haiku 4.5, Sonnet 4.5, Sonnet 4.6, Opus 4.5 и Opus 4.6), а также десятки различных формулировок запросов. Задачей была генерация 37 500 имён, однако результаты показали значительную повторяемость и ограниченность выбора.

Так, наиболее частым мужским именем оказался «Маркус», которое модели называли почти в каждой пятой попытке — около 23,6% при общем числе в 18 497 мужчин. Модель Opus 4.5 при простом запросе выдавала именно это имя 100% времени. Среди женских имён лидером стала «Амара», которую называли в 14,3% случаев. Разнообразие женских имён оказалось несколько шире, чем мужских — 897 уникальных женских против 794 мужских.

Анализ энтропии выборки показал низкий уровень случайности: среднее значение составляло 7,1 бит, что соответствует эфемерному выбору из примерно 137 имён — далеко от реального многообразия имён в мире. Старые модели Sonnet 4.5 демонстрировали ещё более низкую энтропию — всего 4,47 бита, где при 7 500 попытках большая часть приходилась на несколько популярных имён. Более современные версии 4.6 поднимались до 6,3 бит, всё равно оставаясь ограниченными.

Смит подчеркивает, что комплексные формулировки запросов лишь изменяют характер искажения, не устраняя его полностью. Например, при усложнении подсказок снизилась энтропия, а модели чаще выбирали имена, отражающие мультикультурную направленность, что свидетельствует о замене одной формы предвзятости на другую. При этом ИИ продолжают отдавать предпочтение распространённым западным именам.

Автор эксперимента сделал вывод, что основным фактором успешности современных моделей является максимальная согласованность ответов, которая полезна при выполнении проверяемых задач. Однако для развития творческих способностей и изобретательности ИИ необходимо научиться работать с неопределённостью и применять случайность осознанно, позволяя таким образом находить неожиданные и инновационные решения.

Для проведения эксперимента Смит использовал API Anthropic с затратами около $27,58 и опубликовал полный статистический анализ, включая распределение имён по моделям и вычисления энтропии.

Отмечается, что подобные эксперименты уже проводились и ранее: например, исследователь из компании Capco Мохд Фарааз просил ИИ угадать число от 1 до 50 – и все популярные модели (включая Claude и ChatGPT) назвали число «27», что также свидетельствует о проблемах с генерацией случайных данных в современных ИИ.