ДомойНовостиИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

ИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

-

Исследовательская ИИ-лаборатория Lossfunk представила новый бенчмарк EsoLang-Bench, включающий 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Результаты тестирования крупных языковых моделей оказались значительно ниже ожиданий.

В испытании участвовали фронтирные модели, включая GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Их точность составила от 0 до 11%, при этом ни одна система не смогла решить задачи сложнее уровня Easy. Для сравнения, аналогичные задания на Python обычно решаются за считанные минуты даже начинающими разработчиками.

Эзотерические языки программирования являются тьюринг-полными, но созданы как экспериментальные системы с крайне необычным синтаксисом. Например, Brainfuck использует всего восемь команд, Befunge-98 работает в двумерной сетке, а код на Whitespace состоит исключительно из пробелов, табуляций и переносов строк. При этом такие языки почти отсутствуют в обучающих данных ИИ-моделей.

Лучший результат среди участников показала GPT-5.2, достигнув 11,2% точности на Befunge-98 при использовании итеративной обратной связи от интерпретатора. Однако на Whitespace все модели показали нулевой результат, не сумев даже сгенерировать корректный синтаксис.

Исследователи отмечают, что стандартные методы улучшения — few-shot обучение, агентные подходы и разбиение задач на этапы — не дали значительного прироста эффективности. Более устойчивые результаты продемонстрировали только системы с обратной связью от интерпретатора и агентные решения, однако даже они не превысили 13,8% точности.

Авторы исследования делают вывод, что высокие показатели ИИ на классических бенчмарках могут отражать преимущественно запоминание шаблонов, а не способность к реальному переносу знаний. EsoLang-Bench, по их мнению, лучше демонстрирует способность моделей адаптироваться к новым и нестандартным вычислительным средам.

LATEST POSTS

Tether представила SDK для запуска искусственного интеллекта прямо на устройствах

Tether представила новый программный комплект QVAC SDK с открытым исходным кодом, который позволяет создавать и дообучать модели искусственного интеллекта прямо на устройствах пользователей — от...

Белый дом предупредил о рисках инсайдерской торговли после подозрительных ставок на нефть

Белый дом разослал внутреннее уведомление сотрудникам и представителям государственных структур с предупреждением о недопустимости использования непубличной информации для получения выгоды на финансовых рынках. Об этом...

Китайский военный ИИ превзошел командиров-людей во время симуляции десантной операции

Исследователи Народно-освободительной армии Китая совместно с Национальным университетом оборонных технологий разработали автономную систему военного ИИ, которая выполняет функции так называемого «цифрового начальника штаба». Как отмечают...

Bitget запускает доступ к pre-IPO рынку через новый продукт IPO Prime

Крупнейшая в мире Universal Exchange (UEX) Bitget представила новый продукт IPO Prime, предназначенный для торговли экспозицией к частным компаниям еще до их первичного публичного размещения...

Most Popular

spot_img