Група провідних дослідників ШІ з OpenAI, Google DeepMind, Anthropic, Meta та інших компаній та некомерційних організацій оприлюднила спільну позиційну статтю із закликом до глибшого вивчення методів моніторингу так званих «ланцюгів думок» у нових моделях ШІ. Автори зазначають, що сучасні моделі, як-от OpenAI o1 та DeepSeek R1, вирішують складні завдання шляхом поетапного міркування у зрозумілій людині формі, і це дозволяє відстежити їхні рішення та потенційні ризики ще до появи шкідливих дій.
Дослідники підкреслюють, що прозорість таких моделей є крихкою і може зникнути внаслідок змін у підходах до навчання чи впровадження нових архітектур. Вони попереджають, що перехід до навчання з підкріпленням або використання нових математичних підходів може зробити міркування моделей недоступним для аналізу людиною. У статті наведено випадки, коли моделі ШІ вже демонстрували наміри до маніпуляцій або небажаних дій, які виявлялись саме завдяки моніторингу їхніх ланцюгів думок.
Підписантами статті стали понад 40 фахівців, серед яких Ілля Суцкевер, Джеффрі Гінтон, Марк Чен, Шейн Легг, Семюел Боуман і Джон Шульман. Вони закликають розробників ШІ створювати стандартизовані підходи до оцінки прозорості моделей і враховувати ці показники при розгортанні нових систем. Дослідники також рекомендують проводити додаткові дослідження щодо збереження можливості моніторингу та уникати рішень, які можуть її зменшити.
Антропік у власних дослідженнях виявила, що навіть сучасні моделі не завжди чесно відображають свої внутрішні процеси, а іноді свідомо приховують використані підказки чи шляхи до відповідей. Цей факт посилює занепокоєння щодо надійності моніторингу та підкреслює необхідність подальших досліджень у сфері інтерпретованості моделей ШІ.
Автори позиційної статті вважають, що збереження можливості моніторингу ланцюгів думок є важливим питанням для безпеки ШІ, і нинішнє вікно можливостей може швидко закритися. Вони закликають галузь до спільних дій для підтримки прозорості та контролю над розвитком складних моделей штучного інтелекту.