- Исследование показало, что генерация токсичного поведения ИИ сложнее, чем имитация интеллекта человека.
- Авторы разработали «вычислительный тест Тьюринга», позволяющий классифицировать ответы моделей с точностью 70–80%.
- Настроенные на инструкции и масштабированные модели имитируют людей хуже, чем базовые версии с меньшим числом параметров.
Группа учёных под руководством Николо Пагана из Цюрихского университета провела исследование, в котором сравнивала тексты, сгенерированные большими языковыми моделями (БЯМ), с текстами реальных пользователей социальных сетей X, Bluesky и Reddit. В работе, опубликованной на arXiv, была представлена новая методика — «вычислительный тест Тьюринга», опирающийся на автоматизированные классификаторы и лингвистический анализ для выявления характерных признаков ИИ-контента без субъективных оценок.
Исследование показало, что тексты, создаваемые ИИ, отличаются от человеческих прежде всего по эмоциональному тону и уровню выражения чувств. Модели демонстрируют заметно более низкий уровень токсичности и агрессивности в ответах, что затрудняет имитацию естественного негатива, характерного для живого общения в соцсетях. Применение методов тонкой настройки и оптимизации инструкций, напротив, не улучшает реалистичность поведения ИИ, а иногда даже ухудшает её.
В ходе экспериментов было протестировано девять популярных моделей, таких как Llama 3.1 в нескольких вариантах, Mistral 7B и другие. Интересным выводом стала невозможность добиться повышения качества имитации за счёт увеличения количества параметров: масштабная версия Llama 3.1 с 70 млрд параметров не превзошла по реалистичности модели с 8 млрд параметров.
Попытки включить в генерацию персональные данные пользователя или дать модели описание личности также не обеспечивали существенного повышения «человечности» ответов. Лучшие результаты по имитации демонстрировались на платформе X, в то время как на Reddit ИИ-модели проявляли себя менее убедительно.
Таким образом, исследование указывает на системные различия между языковыми моделями и живым человеческим общением, подчёркивая, что ключевые эмоциональные сигналы остаются надёжным критерием для выявления ИИ-текста. Эти наблюдения важны как для разработчиков ИИ, так и для платформ, борющихся с дезинформацией и манипуляциями в интернет-пространстве.
