Нові дослідження виявили слабкі місця генеративного ШІ при відповіді на складні історичні питання. Команда дослідників перевірила можливості трьох провідних моделей — GPT-4 від OpenAI, Llama від Meta та Gemini від Google — на історичних запитаннях за допомогою нового бенчмарку Hist-LLM. Цей бенчмарк базується на даних з глобальної історичної бази Seshat. Результати, презентовані на конференції NeurIPS, показали, що навіть найкраща модель — GPT-4 Turbo — досягла лише 46% точності.
Дослідники з Complexity Science Hub в Австрії зазначили, що моделі ШІ добре справляються з базовими фактами, але їм бракує глибини для вирішення складніших питань, що потребують детального розуміння історії. Наприклад, GPT-4 Turbo помилково стверджувала, що в Стародавньому Єгипті була луската броня, хоча вона з’явилася там лише через 1500 років. Подібні помилки можуть бути наслідком того, що ШІ моделі частіше покладаються на відомі дані, ніж на менш популярні факти.
Крім того, дослідження виявило, що моделі OpenAI та Llama гірше справляються з питаннями, що стосуються певних регіонів, наприклад, субсахарської Африки. Це може свідчити про наявність упереджень у навчальних даних. Незважаючи на це, дослідники сподіваються, що такі моделі можуть бути корисними для істориків у майбутньому, особливо якщо покращити бенчмарк, включивши дані з недопредставлених регіонів і ускладнивши запитання.