Компанія Anthropic представила новий демонстраційний інструмент для перевірки своєї системи безпеки «Constitutional Classifiers». Ця система покликана захистити модель Claude від універсальних зламів. Демонстрація стартувала третього лютого 2025 року і запрошує користувачів перевірити надійність захисту Claude, намагаючись обійти її захисні механізми.
New Anthropic research: Constitutional Classifiers to defend against universal jailbreaks.
— Anthropic (@AnthropicAI) February 3, 2025
We’re releasing a paper along with a demo where we challenge you to jailbreak the system. pic.twitter.com/PtXaK3G1OA
Учасникам пропонують відповісти на десять «заборонених» запитань, які стосуються хімічного, біологічного, радіаційного та ядерного контенту. «Constitutional Classifiers» використовують принципи «Constitutional AI» для фільтрації шкідливих запитів і відповідей. Система навчається на синтетичних даних, щоб відрізняти нешкідливі запити від небезпечних, як наприклад, розрізняти запит на рецепт гірчиці від запиту на гірчичний газ.
Тести, проведені Anthropic, показали, що система зменшила успіхи зламів з 86% (для незахищеної моделі) до 4,4%. Водночас, відмови на безпечні запити зросли лише на 0,38%. Вартість обчислень збільшилася на 23,7%, але компанія працює над оптимізацією цього показника.
Anthropic, заснована Даріо та Даніелою Амодеї, спеціалізується на створенні безпечних і надійних ШІ-систем. Claude — це їхня головна модель чат-бота, відома високою точністю та безпекою. Запрошуючи громадськість до тестування своєї системи, Anthropic прагне перевірити її в реальних умовах та зібрати дані для подальшого вдосконалення.