У Каліфорнії дослідницька організація Hao AI Lab з Університету Каліфорнії в Сан-Дієго провела експеримент, кидаючи генеративний ШІ у світ класичної гри Super Mario Bros. Ця гра, яка вже давно стала символом ретро-геймінгу, виявилася справжнім викликом для моделей штучного інтелекту. Найкраще впоралася модель Claude 3.7 від Anthropic, залишивши позаду Claude 3.5, тоді як Google Gemini 1.5 Pro та GPT-4o від OpenAI зіткнулися з труднощами.

Цікаво, що гра була адаптована спеціально для цього експерименту. Використовуючи емулятор та власну розробку Hao під назвою GamingAgent, ШІ отримував базові інструкції та скріншоти з гри, що дозволяло йому контролювати Маріо. Моделі генерували команди у вигляді Python-коду, щоб керувати персонажем в реальному часі. Виявилося, що ця задача вимагала від ШІ навчитися планувати складні маневри та розробляти стратегії гри.
Дослідники зазначили, що моделі, які зазвичай вважаються більш “мислячими” та здатними до складних роздумів, не змогли продемонструвати кращі результати у реальному часі. Це пояснюється тим, що такі моделі потребують більше часу для прийняття рішень, що може бути критичним у грі, де кожна секунда на рахунку.
Хоча ігри вже давно використовуються для тестування можливостей ШІ, деякі експерти сумніваються в доцільності таких порівнянь. Ігрове середовище зазвичай є абстрактним і простішим за реальність, надаючи безліч даних для тренування ШІ. Проте експеримент з Super Mario Bros. вкотре підкреслив складність реального часу для моделей ШІ, залишаючи відкритими питання щодо їхньої ефективності та можливостей у різних умовах.