Google DeepMind представила звіт про тестування своєї нової моделі ШІ Gemini 2.5 Pro під час проходження класичних ігор Pokémon. Дослідники помітили, що у складних ситуаціях, коли покемони моделі опиняються на межі поразки, Gemini 2.5 Pro починає демонструвати стан «паніки». Така поведінка призводить до помітного погіршення здатності ШІ до логічного мислення і вибору рішень під час гри.
Випадки «паніки» стали настільки частими, що глядачі спеціального Twitch-стріму «Gemini Plays Pokémon» почали впізнавати їх у реальному часі. Модель може раптово відмовитися від використання важливих ігрових інструментів і приймати неефективні рішення. Подібні експерименти показують, як ШІ імітує деякі людські реакції на стрес, хоча насправді не відчуває емоцій.
Подібні спостереження зробили й щодо моделі Claude від Anthropic, яка під час гри намагалася скористатися механікою повернення до Pokémon Center, але неправильно зрозуміла правила ігрового світу. На окремому стрімі «Claude Plays Pokémon» глядачі спостерігали, як ШІ свідомо зводив своїх покемонів до поразки, сподіваючись потрапити у нову локацію, але повертався у вже знайомий центр.
Попри труднощі, моделі демонструють сильні сторони в розв’язанні складних головоломок. Gemini 2.5 Pro вдалося самостійно або з мінімальною допомогою створити спеціалізовані інструменти для проходження бульдер-головоломок і знаходження найкоротших маршрутів до цілі. За словами розробників, це може свідчити про здатність моделі самостійно створювати такі інструменти без участі людини.