Apple представила дослідницьку роботу про нову ШІ-модель для роботи з зображеннями під назвою Manzano. Вона здатна як розпізнавати, так і створювати зображення, що зазвичай є складною задачею для відкритих моделей. Компанія опублікувала результати тестів Manzano на складних запитах, порівнюючи її із системами Deepseek Janus Pro, GPT-4o та Gemini 2.5 Flash Image Generation від Google.

Manzano використовує гібридний токенізатор зображень, який забезпечує два типи токенів. Безперервні токени допомагають моделі краще розуміти зображення, а дискретні — створювати їх. Обидва потоки формує спільний енкодер, що зменшує конфлікти між завданнями аналізу та генерації зображень.
Архітектура Manzano включає гібридний токенізатор, єдину мовну модель та окремий декодер зображень. Apple створила кілька версій декодера з різною кількістю параметрів, що дозволяє працювати з роздільною здатністю від 256 до 2048 пікселів. Для навчання дослідники використали понад два мільярди пар «зображення–текст» та один мільярд пар «текст–зображення» з публічних і внутрішніх джерел.
У тестах Apple модель Manzano показала кращі результати на завданнях з аналізу діаграм, документів та інших задач, де потрібно багато працювати з текстом. Версії з більшою кількістю параметрів демонструють вищу якість виконання порівняно з меншими. Manzano впевнено справляється із завданнями генерації зображень, стилізацією, редагуванням, додаванням нових елементів та оцінкою глибини.
Apple вважає, що модульна структура Manzano дозволить оновлювати окремі компоненти незалежно й застосовувати різні підходи до навчання. Модель поки недоступна для публічного використання, але компанія планує розвивати власні ШІ-рішення і використовувати GPT-5 від OpenAI в Apple Intelligence, починаючи з iOS 26.