ДомойНовостиИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

ИИ-модели провалили тест на эзотерических языках программирования: точность не превысила 11%

-

Исследовательская ИИ-лаборатория Lossfunk представила новый бенчмарк EsoLang-Bench, включающий 80 задач на пяти эзотерических языках программирования: Brainfuck, Befunge-98, Whitespace, Unlambda и Shakespeare. Результаты тестирования крупных языковых моделей оказались значительно ниже ожиданий.

В испытании участвовали фронтирные модели, включая GPT-5.2, O4-mini, Gemini 3 Pro, Qwen3-235B и Kimi K2. Их точность составила от 0 до 11%, при этом ни одна система не смогла решить задачи сложнее уровня Easy. Для сравнения, аналогичные задания на Python обычно решаются за считанные минуты даже начинающими разработчиками.

Эзотерические языки программирования являются тьюринг-полными, но созданы как экспериментальные системы с крайне необычным синтаксисом. Например, Brainfuck использует всего восемь команд, Befunge-98 работает в двумерной сетке, а код на Whitespace состоит исключительно из пробелов, табуляций и переносов строк. При этом такие языки почти отсутствуют в обучающих данных ИИ-моделей.

Лучший результат среди участников показала GPT-5.2, достигнув 11,2% точности на Befunge-98 при использовании итеративной обратной связи от интерпретатора. Однако на Whitespace все модели показали нулевой результат, не сумев даже сгенерировать корректный синтаксис.

Исследователи отмечают, что стандартные методы улучшения — few-shot обучение, агентные подходы и разбиение задач на этапы — не дали значительного прироста эффективности. Более устойчивые результаты продемонстрировали только системы с обратной связью от интерпретатора и агентные решения, однако даже они не превысили 13,8% точности.

Авторы исследования делают вывод, что высокие показатели ИИ на классических бенчмарках могут отражать преимущественно запоминание шаблонов, а не способность к реальному переносу знаний. EsoLang-Bench, по их мнению, лучше демонстрирует способность моделей адаптироваться к новым и нестандартным вычислительным средам.

LATEST POSTS

В Праге в июне 2026 года пройдет крупнейшая в Европе биткоин-конференция BTC Prague

BTC Prague 2026, одна из ведущих биткоин-конференций Европы, пройдет с 11 по 13 июня в выставочном центре PVA Expo в Праге и станет крупнейшим за...

Grayscale назвала Hyperliquid одним из главных прорывов в DeFi

Компания Grayscale Investments в новом исследовании назвала платформу Hyperliquid одним из ключевых прорывов в секторе децентрализованных финансов (DeFi). В отчете под названием Hyperliquid Breaks the...

Хакер перехватил криптоаирдроп GUA на $15 млн и обвалил токен

Проект SUPERFORTUNE сообщил о крупном инциденте безопасности, в результате которого злоумышленник вывел около 15 млн токенов GUA (примерно $14,98 млн на момент транзакции), предназначенных для...

Трейдеры потеряли более $900 млн на обвале крипторынка

Резкое падение криптовалютного рынка привело к масштабным потерям среди трейдеров. За последние сутки криптобиржи ликвидировали позиции пользователей более чем на 930 млн долларов, причем основная...

Most Popular

spot_img