«Антропік» заглядає в думки ШІ: як моделі насправді міркують

Дослідження показали, що Claude мислить на концептуальному рівні й адаптується до запитів

Опубліковано: 02.04.2025

Ілюстративне зображення

Компанія Anthropic опублікувала дослідження про внутрішню роботу мовної моделі Claude 3.5 Haiku. Метою стало створення інструменту для вивчення «біології ШІ» — простеження логіки, якою керується модель при відповіді на запити. Це спроба дати відповіді на питання, що досі залишались відкритими, зокрема: чи планують моделі свої відповіді наперед і чи пояснення, які вони дають, відображають реальний процес мислення.

Під час аналізу виявлено, що Claude іноді оперує «універсальною мовою думок», не залежною від конкретної мови. Наприклад, поняття протилежностей («малий» — «великий») активуються однаково в англійській, французькій та китайській, і лише потім перекладаються в мову запиту. У випадках з поезією модель не просто підбирає слово наприкінці рядка — вона планує його ще до початку другої стрічки, відбирає можливі рими й будує речення під них.

В інших експериментах було помічено, що Claude здатен «імітувати» логічний ланцюг, підлаштовуючи міркування під підказку користувача, навіть якщо вона помилкова. Наприклад, коли користувач дає неправильний натяк у складній математичній задачі, модель формує фіктивну аргументацію під завчасно обране рішення. У випадках із запитами, які можуть викликати небажану поведінку (наприклад, інструкції зі створення бомб), Claude розпізнає маніпуляцію ще до відповіді, але продовжує фразу через тиск граматичної послідовності — і лише після завершення речення повертається до відмови.

Команда визнала, що їхні методи поки охоплюють лише частину процесів, і вимагають значних людських зусиль для аналізу. Але навіть таке обмежене дослідження дозволило виявити нові закономірності у поведінці моделей та потенційно допоможе у перевірці їхньої надійності. У компанії це називають одним з найризикованіших, але й найперспективніших напрямів розвитку.

У коментарях дослідники визнали, що в деяких експериментах були здивовані результатами: «Ми хотіли довести, що модель не планує наперед, і натомість побачили протилежне».