Исследовательская ИИ-лаборатория Lossfunk представила новый бенчмарк EsoLang-Bench, включающий 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Результаты тестирования крупных языковых моделей оказались значительно ниже ожиданий.
В испытании участвовали фронтирные модели, включая GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Их точность составила от 0 до 11%, при этом ни одна система не смогла решить задачи сложнее уровня Easy. Для сравнения, аналогичные задания на Python обычно решаются за считанные минуты даже начинающими разработчиками.
Эзотерические языки программирования являются тьюринг-полными, но созданы как экспериментальные системы с крайне необычным синтаксисом. Например, Brainfuck использует всего восемь команд, Befunge-98 работает в двумерной сетке, а код на Whitespace состоит исключительно из пробелов, табуляций и переносов строк. При этом такие языки почти отсутствуют в обучающих данных ИИ-моделей.
Лучший результат среди участников показала GPT-5.2, достигнув 11,2% точности на Befunge-98 при использовании итеративной обратной связи от интерпретатора. Однако на Whitespace все модели показали нулевой результат, не сумев даже сгенерировать корректный синтаксис.
Исследователи отмечают, что стандартные методы улучшения — few-shot обучение, агентные подходы и разбиение задач на этапы — не дали значительного прироста эффективности. Более устойчивые результаты продемонстрировали только системы с обратной связью от интерпретатора и агентные решения, однако даже они не превысили 13,8% точности.
Авторы исследования делают вывод, что высокие показатели ИИ на классических бенчмарках могут отражать преимущественно запоминание шаблонов, а не способность к реальному переносу знаний. EsoLang-Bench, по их мнению, лучше демонстрирует способность моделей адаптироваться к новым и нестандартным вычислительным средам.

