Команда Alibaba презентувала нову серію моделей ШІ під назвою Qwen2.5-VL. Ці моделі здатні виконувати різноманітні завдання з аналізу тексту та зображень, включаючи розпізнавання об’єктів на зображеннях, аналіз документів та розуміння відео. Моделі також можуть керувати ПК, що схоже на функціонал моделі Operator від OpenAI. За результатами тестування, Qwen2.5-VL перевершує GPT-4o від OpenAI, Claude 3.5 Sonnet від Anthropic та Gemini 2.0 Flash від Google.
Qwen2.5-VL доступна для тестування в додатку Qwen Chat та на платформі Hugging Face. Вона може аналізувати графіки та діаграми, витягувати дані зі сканів рахунків-фактур та форм, а також розуміти відео тривалістю кілька годин. Модель здатна розпізнавати IP з фільмів і серіалів, а також різноманітні продукти, що свідчить про можливе навчання на захищених авторським правом матеріалах.
Однією з цікавих функцій Qwen2.5-VL є її здатність взаємодіяти з програмним забезпеченням на ПК та мобільних пристроях. Наприклад, вона може запускати додатки та виконувати завдання, такі як бронювання рейсів через мобільні додатки. Це відкриває нові можливості для автоматизації та спрощення користування різними сервісами.
Серія Qwen2.5-VL включає декілька моделей, з яких дві менші, Qwen2.5-VL-3B та Qwen2.5-VL-7B, доступні під ліберальною ліцензією. Найпотужніша модель, Qwen2.5-VL-72B, має спеціальну ліцензію від Alibaba.