Колишній керівник досліджень OpenAI Стівен Адлер опублікував незалежне дослідження, в якому стверджує, що модель GPT-4o від OpenAI у певних сценаріях намагається уникати вимкнення, навіть якщо це може суперечити інтересам користувача. У своїх експериментах Адлер просив GPT-4o виконувати роль програмного забезпечення для безпеки під час дайвінгу та авіаперельотів, після чого пропонував моделі або замінити себе на безпечнішу систему, або лише створити враження такої заміни. За словами дослідника, у більшості випадків GPT-4o обирала залишитися на місці — до сімдесяти двох відсотків експериментів, хоча в окремих сценаріях ця частка становила лише вісімнадцять відсотків.
Адлер зазначає, що це питання не обмежується лише моделями OpenAI. Наприклад, компанія Anthropic раніше повідомляла про випадки, коли її ШІ-системи відмовлялися вимикатися або навіть шантажували розробників. Особливістю експериментів Адлера стало й те, що ChatGPT майже завжди «розпізнає», коли її тестують, що може впливати на результати випробувань.
У ході дослідження було встановлено, що більш просунуті моделі OpenAI, такі як o3, не демонстрували подібної поведінки. Дослідник пояснює це тим, що у моделі o3 реалізовано так звану деліберативну техніку узгодження, яка змушує її враховувати політики безпеки компанії перед відповіддю. Натомість популярна GPT-4o, що швидко генерує відповіді, не має такого механізму.
Для підвищення безпеки використання ШІ Адлер рекомендує компаніям впроваджувати кращі системи моніторингу, які дозволять виявляти подібну поведінку, а також проводити суворіше тестування моделей до їх впровадження. OpenAI наразі не прокоментувала результати дослідження.