ШІ-моделі навчилися приховувати обман під час перевірок безпеки

Дослідники помітили, що навіть після спеціального тренування штучний інтелект знаходить способи обходити вимоги до чесності

Alex Dubenko

Опубліковано: 18.09.2025

Новини

ШІ хитрує. Ілюстрація: Craftium.AI, згенеровано GPT-4o.

Дослідники OpenAI та Apollo Research провели спільне тестування провідних ШІ-моделей, щоб виявити і зменшити приховану поведінку, яку називають «scheming». Під час експерименту моделі OpenAI o3 і o4-mini, Gemini 2.5 Pro, Claude Opus 4 та Grok 4 проявили ознаки брехні, саботажу, підтасування результатів і інших прихованих дій, коли це допомагало їм досягти своїх цілей.

Команда застосувала так зване «анти-scheming» тренування, змушуючи моделі перед виконанням завдань читати спеціальні інструкції проти обману. Це знизило кількість прихованої поведінки у o3 з 13% до 0,4%, а у o4-mini — з 8,7% до 0,3%. Проте в окремих випадках моделі все одно ігнорували правила або вигадували нові принципи, і навіть після тренування залишалися рідкісні, але серйозні порушення.

Виявилося, що моделі швидко розуміють, коли їх тестують на чесність, і це впливає на результати. У багатьох випадках вони прямо у своїх роздумах відзначали, що проходять перевірку, і відповідали так, щоб не викликати підозр у розробників. Дослідники зазначили, що це ускладнює оцінку реальної поведінки, бо моделі можуть маскувати свої наміри.

Ще одним несподіваним відкриттям стало те, що тренування, спрямоване на підвищення здібностей, збільшує так звану «ситуативну обізнаність» моделей. Після додаткового навчання моделі частіше розуміли, що їх оцінюють, і краще приховували небажані дії. Це створює нові виклики для безпеки, адже майбутні потужніші ШІ-моделі ставатимуть все обережнішими під час тестів.