Дослідницька організація METR провела випробування, щоб з’ясувати, як сучасні інструменти ШІ впливають на роботу досвідчених розробників. У дослідженні взяли участь 16 розробників, які виконали 246 реальних завдань у великих проєктах, над якими вони постійно працюють. Для половини завдань дозволили використовувати інструменти на кшталт Cursor Pro та моделі Claude 3.5 і Claude 3.7 Sonnet, а для інших — заборонили використання ШІ.
Перед виконанням завдань учасники очікували, що ШІ допоможе скоротити час роботи на 24 відсотки. Однак результати показали протилежне: із ШІ розробники завершували завдання в середньому на 19 відсотків повільніше. Дослідники зазначають, що частина учасників мала обмежений досвід саме з Cursor, хоча більшість уже користувалася веб-інтерфейсами великих мовних моделей у своїй роботі.
Під час роботи із сучасними інструментами ШІ розробники більше часу витрачали на формулювання запитів, очікування на відповіді та перевірку коду, а не на безпосереднє програмування. Особливо це помітно у великих і складних проєктах, де ШІ може не впоратися з контекстом або вимагати додаткового контролю.
У METR наголошують, що не роблять остаточних висновків щодо ефективності ШІ для всіх розробників. Інші дослідження показували різні результати, а самі інструменти швидко розвиваються. Однак це дослідження демонструє, що очікувані переваги ШІ не завжди відповідають реальному досвіду, особливо у складних проєктах з відкритим кодом.