Google представила нову модель ШІ Gemini 2.5 Computer Use, яка дозволяє агентам працювати з веб-інтерфейсами безпосередньо через браузер. Розробники можуть протестувати цю модель у відкритому доступі через Gemini API у Google AI Studio, Vertex AI, а також у демоверсії на Browserbase. Модель аналізує запит користувача, знімок екрана та історію попередніх дій, після чого виконує одну з тринадцяти дій, зокрема введення тексту, клік, прокручування, перетягування елементів або навігацію за адресою.
Gemini 2.5 Computer Use оптимізована для роботи у браузерах, але також демонструє хороші результати для мобільних інтерфейсів, хоча ще не призначена для керування на рівні операційної системи комп’ютера. Модель використовує можливості візуального аналізу та логічного мислення, що дозволяє їй виконувати завдання на кшталт заповнення форм, організації нотаток у онлайн-сервісах чи додавання товарів у кошик за списком інгредієнтів.
Google стверджує, що Gemini 2.5 Computer Use перевершує альтернативні рішення за точністю та швидкістю у кількох тестах, серед яких Online-Mind2Web та AndroidWorld. Модель вже використовується для автоматизованого тестування інтерфейсів у внутрішніх проєктах компанії, таких як Project Mariner і AI Mode у Search, а також отримала позитивні відгуки від ранніх користувачів, які створюють особистих помічників та інструменти для автоматизації робочих процесів.
Щоб забезпечити безпеку, Google впровадила перевірку кожної дії перед її виконанням, а розробники можуть встановлювати додаткові обмеження, наприклад, вимагати підтвердження користувача або блокувати ризиковані дії, як-от спроби обійти CAPTCHA чи взаємодію з медичними пристроями. За словами Google, модель допоможе автоматизувати рутинні завдання без потреби у спеціальних API, що відкриває нові можливості для команд, які працюють над тестуванням інтерфейсів і цифровою автоматизацією.