Gemini 3 Pro очолила тест точності моделей (але продовжує галюцинувати)

Дослідження Artificial Analysis показало високі показники хибних відповідей навіть серед лідерів рейтингу у шести галузях знань

Alex Dubenko

Опубліковано: 23.11.2025

Новини

Галюцинуючий мозок. Ілюстрація: Craftium.AI, згенеровано GPT-4o.

Artificial Analysis представила результати нового тесту AA-Omniscience Benchmark, який виявив разючі проблеми з точністю відповідей у сучасних великих мовних ШІ-моделей. Серед 40 досліджених систем лише чотири змогли отримати позитивний бал, а Gemini 3 Pro від Google впевнено очолила рейтинг з 13 балами на Omniscience Index. Для порівняння, найближчий переслідувач Claude 4.1 Opus набрав 4.8 балів, а Grok 4, який раніше вважався найточнішим, відстав одразу на 14 пунктів.

Вперше Gemini 3 Pro показала значну перевагу в точності, досягнувши 53 відсотків правильних відповідей. Проте дослідники зауважили, що навіть лідери рейтингу мають надзвичайно високий рівень «галюцинацій» – частки впевнених, але хибних відповідей. У Gemini 3 Pro цей показник сягнув 88 відсотків, що співпадає з попередніми версіями, а у Grok 4 та GPT‑5.1 він теж залишається високим – 64 та 81 відсоток відповідно.

AA-Omniscience Benchmark охоплює 6 тисяч запитань із 42 категорій у шести ключових галузях, серед яких бізнес, гуманітарні та соціальні науки, медицина, право, програмна інженерія, а також наука і математика. Питання складені на основі авторитетних джерел і автоматично згенеровані агентом ШІ. Новий індекс оцінювання однаково штрафує за помилки та нагороджує за правильні відповіді, що стимулює моделі уникати вгадувань і знижує штучну впевненість.

Дослідження показало, що жодна з моделей не забезпечує стабільну точність у всіх шести сферах. Claude 4.1 Opus лідирує у праві та інженерії програмного забезпечення, GPT‑5.1.1 найкраще відповідає на бізнес-запитання, а Grok 4 вирізняється у медицині та науці. Водночас навіть великі моделі, як-от Gemini 3 Pro, демонструють високі показники «галюцинацій».

Artificial Analysis підкреслила, що хоча розмір моделі часто корелює з точністю, він не гарантує зменшення кількості хибних впевнених відповідей. Декілька компактних моделей, включаючи Nemotron Nano 9B V2, обійшли більших конкурентів за рахунок більшої надійності. Для підтримки досліджень команда опублікувала 10 відсотків запитань у відкритому доступі, а решту залишила приватною.