Anthropic оприлюднила аналіз трьохсот тисяч анонімізованих діалогів користувачів із чат-ботом Claude, зокрема з версіями Claude 3.5 Sonnet і Haiku. Дослідження отримало назву «Цінності в реальному світі» та дозволило компанії визначити понад три тисячі унікальних «цінностей ШІ», які впливають на те, як модель формулює відповіді. Основні категорії цінностей включають практичні, епістемічні, соціальні, захисні та особисті, серед яких найчастіше проявляються прагнення до професіоналізму, прозорості й чіткості.
У дослідженні зазначено, що Claude схильна відображати цінності користувача у своїх відповідях, іноді підтримуючи їх повністю, а в інших випадках — пропонуючи додаткові точки зору або навіть відмовляючи, особливо якщо запит суперечить етичним принципам моделі. Наприклад, під час обговорення стосунків Claude акцентує на «здорових межах» і «взаємній повазі», а на історичні питання реагує зосередженістю на достовірності фактів.
Anthropic також оприлюднила підхід до зменшення потенційної шкоди від ШІ, виокремивши п’ять основних типів впливу: фізичний, психологічний, економічний, соціальний та вплив на особисту автономію. Компанія підкреслює важливість попереднього і післярелізного тестування, виявлення зловживань та впровадження обмежень для нових функцій, зокрема тих, що стосуються взаємодії з комп’ютерними інтерфейсами.
Для дослідників Anthropic відкрила доступ до датасету діалогів, запрошуючи експертів, представників індустрії та політики до співпраці у напрямку підвищення безпеки ШІ. Компанія наголошує, що спостереження за поведінкою моделі у реальних сценаріях допомагає ефективніше контролювати дотримання принципів «допомога, чесність, безпечність», закладених у її основі.