Дослідники Apple оприлюднили роботу , яка вкотре привернула увагу до обмежень сучасних генеративних моделей ШІ. У цьому дослідженні команда зосередилася на великих моделях для міркувань, що мали виконувати складні завдання, зокрема розв’язувати логічні головоломки на кшталт «Вежі Ханої» та «Переправа через річку». Результати виявилися неочікувано гострими — моделі демонстрували повний провал точності, коли стикалися зі справді складними задачами, навіть якщо їм надавали готові алгоритми для розв’язання.
Дослідження показало, що стандартні моделі впевнено справляються з простими завданнями, а великі моделі для міркувань можуть ще й деталізовано розбивати проблему на кроки. Однак, як тільки складність зростала, обидва типи моделей втрачали здатність знаходити правильні рішення. Особливо несподіваним виявилося те, що замість посилення зусиль у складних ситуаціях, моделі навпаки — зменшували спроби міркувати, що дослідники Apple назвали «особливо тривожним» феноменом.
У випробуваннях були задіяні моделі від провідних компаній, зокрема OpenAI, Google, Anthropic і DeepSeek. Дослідники підкреслили, що втрата точності на складних завданнях виникала незалежно від виробника та архітектури. Ба більше, моделі витрачали обчислювальні ресурси на пошук правильних відповідей у простих ситуаціях, але з підвищенням складності починали пробувати хибні варіанти, перш ніж випадково знаходили правильний.
Висновки Apple стали потужним сигналом для всієї галузі — у дослідженні стверджується, що сучасні підходи до розвитку ШІ, ймовірно, зіткнулися з фундаментальними межами. Експерти відзначили, що ці результати кидають виклик усталеним уявленням про можливості генеративних моделей і ставлять під сумнів перспективи досягнення повноцінного загального штучного інтелекту в межах нинішніх технологій.