Alibaba представила нові можливості для редагування зображень у своїй моделі Qwen-Image-Edit, яка працює на базі 20-мільярдної моделі Qwen-Image. Система поєднує дві стратегії обробки: «Qwen2.5-VL» відповідає за смисловий контроль, а Variational Autoencoder змінює зовнішній вигляд зображення. Користувачі можуть вносити як прості коригування, так і виконувати складні смислові зміни, при цьому основний об’єкт залишається впізнаваним.

Qwen-Image-Edit дозволяє змінювати окремі ділянки фото, не впливаючи на інші частини, або повністю змінювати картинку, зберігаючи головний об’єкт. Наприклад, можна створити нові версії маскота Capybara для використання у стікерах або месенджерах, а також змінювати ракурси предметів, людей чи тварин на 90 чи 180 градусів. Інструмент підтримує зміну стилю, наприклад, перетворення портретів у стилі Studio Ghibli.
Редактор також дає змогу додавати написи з реалістичними тінями, змінювати кольори літер, видаляти зайві нюанси на зображенні, редагувати фон чи одяг.
Одна з головних переваг Qwen-Image-Edit — можливість редагування тексту на зображеннях китайською та англійською мовами. Користувачі можуть додавати, видаляти чи змінювати текст без втрати шрифту, розміру та стилю. Для цього потрібно виділити необхідну ділянку, після чого модель оновлює позначені області. Якщо результат не ідеальний, можна поступово уточнювати зміни, поки не буде досягнуто бажаного вигляду.
Qwen-Image-Edit вже доступна через функцію «Image Editing» у Qwen Chat, а також на Github, Hugging Face і Modelscope. Alibaba заявляє про провідні результати моделі на відкритих тестах редагування зображень, але не оприлюднила точні показники.