ИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

Исследовательская ИИ-лаборатория Lossfunk представила новый бенчмарк EsoLang-Bench, включающий 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Результаты тестирования крупных языковых моделей оказались значительно ниже ожиданий.

В испытании участвовали фронтирные модели, включая GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Их точность составила от 0 до 11%, при этом ни одна система не смогла решить задачи сложнее уровня Easy. Для сравнения, аналогичные задания на Python обычно решаются за считанные минуты даже начинающими разработчиками.

Эзотерические языки программирования являются тьюринг-полными, но созданы как экспериментальные системы с крайне необычным синтаксисом. Например, Brainfuck использует всего восемь команд, Befunge-98 работает в двумерной сетке, а код на Whitespace состоит исключительно из пробелов, табуляций и переносов строк. При этом такие языки почти отсутствуют в обучающих данных ИИ-моделей.

Лучший результат среди участников показала GPT-5.2, достигнув 11,2% точности на Befunge-98 при использовании итеративной обратной связи от интерпретатора. Однако на Whitespace все модели показали нулевой результат, не сумев даже сгенерировать корректный синтаксис.

Исследователи отмечают, что стандартные методы улучшения — few-shot обучение, агентные подходы и разбиение задач на этапы — не дали значительного прироста эффективности. Более устойчивые результаты продемонстрировали только системы с обратной связью от интерпретатора и агентные решения, однако даже они не превысили 13,8% точности.

Авторы исследования делают вывод, что высокие показатели ИИ на классических бенчмарках могут отражать преимущественно запоминание шаблонов, а не способность к реальному переносу знаний. EsoLang-Bench, по их мнению, лучше демонстрирует способность моделей адаптироваться к новым и нестандартным вычислительным средам.

Предыдущая статья

Google выявила цепочку iOS-эксплойтов DarkSword, угрожающих данным криптокошельков

Следующая статья

Инвесторы закладывают рост ставки ФРС вопреки сигналам регулятора: рынки усиливают расхождение с центробанками

LATEST POSTS

Загрузить больше

Tether получил два года на приведение USDT в соответствие с законом США

Банк Израиля предложил смягчить правила работы банков с криптовалютой

На Polymarket заподозрили сделки на $200 млн в инсайдерской торговле

Hyperliquid откроет пользователям возможность создавать рынки прогнозов

ИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

LATEST POSTS

Tether получил два года на приведение USDT в соответствие с законом США

Соучредитель Allbridge допустил отказ от пулов ликвидности после взлома

Exodus Movement сократит четверть сотрудников в рамках реорганизации

Банк Израиля предложил смягчить правила работы банков с криптовалютой

Most Popular

Tether получил два года на приведение USDT в соответствие с законом США

Соучредитель Allbridge допустил отказ от пулов ликвидности после взлома

Exodus Movement сократит четверть сотрудников в рамках реорганизации

Банк Израиля предложил смягчить правила работы банков с криптовалютой

На Polymarket заподозрили сделки на $200 млн в инсайдерской торговле

contact@fast.news

Последние новости

Tether получил два года на приведение USDT в соответствие с законом США

Соучредитель Allbridge допустил отказ от пулов ликвидности после взлома

Exodus Movement сократит четверть сотрудников в рамках реорганизации

Популярные категории