Компанія Alibaba представила багатомодальну ШІ Qwen VLo, яка аналізує, створює та редагує зображення на основі текстових запитів. Qwen VLo формує зображення поступово, крок за кроком, зліва направо та зверху вниз, що дає змогу краще контролювати результат і особливо корисно при довгих текстових описах.
Модель розуміє складні інструкції природною мовою. Користувачі можуть змінювати фон, додавати нові об’єкти, змінювати стиль зображення та поєднувати декілька зображень в одне.
Qwen VLo підтримує як художні, так і технічні зміни. Вона створює сегментаційні карти, проводить визначення контурів і формує карти глибини з кольоровими накладками. Модель також розпізнає частини зображення та оцінює глибину сцени.
Система працює з різними роздільними здатностями та пропорціями зображень, зокрема підтримує екстремальні формати, як 4:1 чи 1:3, хоча ця можливість ще не активована. Запити вона обробляє китайською та англійською мовами.
Наразі Qwen VLo доступна для ознайомлення у Qwen Chat. Компанія повідомляє про окремі помилки генерації, невідповідності джерелу й труднощі з виконанням деталізованих інструкцій, але планує покращити стабільність і надійність моделі.