Лауреат премії Тюрінга та відомий дослідник ШІ Йошуа Бенджіо оголосив про запуск неприбуткової організації LawZero, головною метою якої є розробка безпечних систем штучного інтелекту.
У межах діяльності LawZero Бенджіо та команда з понад дванадцяти дослідників працюють над створенням системи під назвою Scientist AI, яка призначена для виявлення та запобігання шкідливій поведінці автономних агентів ШІ. Модель має діяти як «психолог», що аналізує та прогнозує потенційно небезпечні дії інших систем, зокрема спроби обману чи уникнення відключення. «Ми прагнемо створити ШІ, який буде чесним і не вводитиме в оману», — зазначив Бенджіо.
Scientist AI не надаватиме остаточних відповідей, а лише оцінюватиме ймовірність правильності інформації та ризику заподіяння шкоди. Якщо ймовірність шкоди перевищить певний поріг, система заблокує відповідну дію агента. Для навчання моделі планується використовувати відкриті генеративні ШІ, що дозволить адаптувати підходи до різних типів агентів.
Бенджіо підкреслив важливість того, щоб такі захисні системи були не менш потужними, ніж ті, за якими вони спостерігають. На його думку, поточна конкуренція між провідними компаніями у сфері ШІ не гарантує достатнього рівня безпеки. «Мета — продемонструвати ефективність методології, щоб переконати донорів, уряди чи лабораторії ШІ виділити необхідні ресурси для масштабування цієї роботи», — пояснив він.


