ИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

Исследовательская ИИ-лаборатория Lossfunk представила новый бенчмарк EsoLang-Bench, включающий 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Результаты тестирования крупных языковых моделей оказались значительно ниже ожиданий.

В испытании участвовали фронтирные модели, включая GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Их точность составила от 0 до 11%, при этом ни одна система не смогла решить задачи сложнее уровня Easy. Для сравнения, аналогичные задания на Python обычно решаются за считанные минуты даже начинающими разработчиками.

Эзотерические языки программирования являются тьюринг-полными, но созданы как экспериментальные системы с крайне необычным синтаксисом. Например, Brainfuck использует всего восемь команд, Befunge-98 работает в двумерной сетке, а код на Whitespace состоит исключительно из пробелов, табуляций и переносов строк. При этом такие языки почти отсутствуют в обучающих данных ИИ-моделей.

Лучший результат среди участников показала GPT-5.2, достигнув 11,2% точности на Befunge-98 при использовании итеративной обратной связи от интерпретатора. Однако на Whitespace все модели показали нулевой результат, не сумев даже сгенерировать корректный синтаксис.

Исследователи отмечают, что стандартные методы улучшения — few-shot обучение, агентные подходы и разбиение задач на этапы — не дали значительного прироста эффективности. Более устойчивые результаты продемонстрировали только системы с обратной связью от интерпретатора и агентные решения, однако даже они не превысили 13,8% точности.

Авторы исследования делают вывод, что высокие показатели ИИ на классических бенчмарках могут отражать преимущественно запоминание шаблонов, а не способность к реальному переносу знаний. EsoLang-Bench, по их мнению, лучше демонстрирует способность моделей адаптироваться к новым и нестандартным вычислительным средам.

Предыдущая статья

Google выявила цепочку iOS-эксплойтов DarkSword, угрожающих данным криптокошельков

Следующая статья

Инвесторы закладывают рост ставки ФРС вопреки сигналам регулятора: рынки усиливают расхождение с центробанками

LATEST POSTS

Загрузить больше

Белый дом предупредил о рисках инсайдерской торговли после подозрительных ставок на нефть

Bitget запускает доступ к pre-IPO рынку через новый продукт IPO Prime

Япония официально признала криптовалюты финансовыми инструментами

Revolut запустила ИИ-ассистента для управления личными финансами

ИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

LATEST POSTS

Tether представила SDK для запуска искусственного интеллекта прямо на устройствах

Белый дом предупредил о рисках инсайдерской торговли после подозрительных ставок на нефть

Китайский военный ИИ превзошел командиров-людей во время симуляции десантной операции

Bitget запускает доступ к pre-IPO рынку через новый продукт IPO Prime

Most Popular

Tether представила SDK для запуска искусственного интеллекта прямо на устройствах

Белый дом предупредил о рисках инсайдерской торговли после подозрительных ставок на нефть

Китайский военный ИИ превзошел командиров-людей во время симуляции десантной операции

Bitget запускает доступ к pre-IPO рынку через новый продукт IPO Prime

Япония официально признала криптовалюты финансовыми инструментами

contact@fast.news

Последние новости

Tether представила SDK для запуска искусственного интеллекта прямо на устройствах

Белый дом предупредил о рисках инсайдерской торговли после подозрительных ставок на нефть

Китайский военный ИИ превзошел командиров-людей во время симуляции десантной операции

Популярные категории