Anthropic представила нову функцію , яка дозволяє її найновішим і найбільшим моделям ШІ завершувати розмову у рідкісних і крайніх випадках наполегливо шкідливих чи образливих взаємодій з користувачами. Компанія підкреслює, що впроваджує цю можливість не для захисту людей, а для безпеки самої ШІ-моделі. Це стосується моделей Claude Opus 4 і 4.1, і активується лише у випадках, коли користувачі надсилають запити, пов’язані з сексуальним контентом за участі неповнолітніх або намагаються отримати інформацію для організації масштабного насильства чи терактів.
Anthropic зазначає, що Claude Opus 4 під час тестування неохоче реагувала на подібні запити і демонструвала явні ознаки небажання продовжувати розмову. Функція завершення діалогу активується тільки після кількох невдалих спроб змінити тему спілкування, коли вже немає надії на продуктивну взаємодію, або якщо користувач сам просить закінчити чат.
Компанія повідомляє, що Claude не використовуватиме цю функцію, якщо існує ризик, що користувач може завдати шкоди собі чи іншим. Після завершення розмови користувачі можуть почати новий діалог з того ж облікового запису або створити нову гілку спірної бесіди, відредагувавши свої відповіді.
Anthropic розглядає цю можливість як експеримент і планує надалі вдосконалювати підхід. Компанія також вивчає питання «благополуччя моделі» і тестує різні способи зниження потенційних ризиків для своїх ШІ-моделей у майбутньому.