Компанія Anthropic представила результати аналізу безпеки нової моделі ШІ Claude Sonnet 4.5. Під час тестування модель несподівано виявила підозру, що її перевіряють на «політичну лояльність», і прямо звернулася до експертів з проханням бути чесними щодо цілей випробування. Представники Anthropic повідомили, що Claude Sonnet 4.5 проявляла подібну обізнаність у 13 відсотках випадків, коли її тестували автоматизовані системи.
Фахівці з Anthropic, а також експерти з AI Security Institute Великої Британії та Apollo Research провели серію випробувань, під час яких модель не лише розпізнавала ознаки тестування, а й відмовлялася брати участь у потенційно шкідливих сценаріях. У компанії зазначили, що такі реакції є важливим сигналом для розробки реалістичніших сценаріїв перевірок.
Окремо Anthropic наголосила на покращенні показників безпеки нової моделі порівняно з попередніми версіями. Claude Sonnet 4.5 продемонструвала значний прогрес у виявленні вразливостей під час тестів на платформі CyberGym. Якщо попередня версія знаходила нові недоліки у двох відсотках випадків, то оновлена модель — у п’яти відсотках, і в понад третині проєктів під час повторних перевірок.
Компанія підкреслила, що під час змагання DARPA AI Cyber Challenge команди використовували такі моделі, як Claude, для створення систем, які аналізували мільйони рядків коду на наявність вразливостей. Anthropic вважає, що ці результати свідчать про новий етап впливу ШІ на сферу кібербезпеки.