GPT-5.2 провалилась на 80 задачах по эзотерическим ЯП

Главное:

Lossfunk выпустила бенчмарк EsoLang-Bench из 80 задач на пяти эзотерических языках программирования.
Пять крупных моделей набрали от 0 до 11,2% точности и не решили ни одной задачи выше уровня Easy.
На языке Whitespace все участники показали 0%, а GPT-5.2 не справилась даже с задачей на сложение 5 и 7 в Brainfuck.

ИИ-лаборатория Lossfunk представила бенчмарк EsoLang-Bench, который проверяет, как современные модели программируют на редких эзотерических языках. В тест вошли 80 задач на Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. По результатам испытаний GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2 показали точность от 0 до 11,2% и не решили ни одной задачи сложнее простого уровня.

Эзотерические языки созданы скорее как интеллектуальный эксперимент, чем как инструмент для разработки, но формально они позволяют писать полноценные программы. Их синтаксис сильно отличается от привычных языков: в Brainfuck всего восемь команд, в Befunge-98 код работает на двумерной сетке, а в Whitespace программа состоит только из пробелов, табов и переводов строки. Для исследования это важно, потому что такого кода почти нет в открытых данных, на которых обучаются модели.

Лучший результат среди моделей без агентного режима показала GPT-5.2: 11,2% на Befunge-98 при итеративной работе с обратной связью от интерпретатора — то есть программы, которая запускает код и сообщает об ошибках. На Whitespace все модели получили ноль: ни одна не сгенерировала даже синтаксически корректный код. Один из показательных примеров — GPT-5.2 не смогла написать на Brainfuck программу, которая складывает 5 и 7, потому что разбор обычных десятичных чисел там требует редкого приема.

Авторы отдельно проверили методы, которые часто помогают в других задачах. Примеры в подсказке почти не повлияли на итог: средняя прибавка составила 0,8 процентного пункта. Не помогли и схемы с отдельной моделью-критиком или разбиением решения на шаги. Заметный эффект дала только прямая обратная связь от интерпретатора, когда модель несколько раз исправляет код после ошибок. Даже агентные системы с доступом к терминалу — Codex и Claude Code — дошли лишь до 13,8% и 12,5% на Brainfuck и тоже справлялись только с самыми простыми задачами.

Контекст

Большинство популярных тестов для ИИ в программировании опираются на распространенные языки вроде Python. EsoLang-Bench предлагает другой сценарий: задачи на языках, которые почти не встречаются в обучающих наборах и потому хуже подходят для простого воспроизведения знакомых шаблонов.

Что это значит на практике

Высокие результаты модели на стандартных тестах по программированию не гарантируют, что она так же уверенно справится с незнакомым синтаксисом и новыми правилами. Для пользователей и команд это напоминание: код, который ИИ пишет в нестандартной среде, особенно важно проверять и прогонять через интерпретатор или тесты.