Група Qwen AI компанії Alibaba представила нову ШІ-модель Qwen3-Omni, яка працює з текстом, зображеннями, аудіо та відео у реальному часі. Qwen3-Omni обробляє текст 119 мовами, розпізнає мовлення 19 мовами та відповідає десятьма. Модель може транскрибувати до 30 хвилин аудіо, а її затримка відповіді становить лише 234 мілісекунди. Для зручного використання розділено архітектуру на дві частини: «Thinker» аналізує вхідні дані та створює текст, а «Talker» одразу перетворює його на мову, що забезпечує швидке озвучення результату.
Qwen3-Omni показала високі результати у 32 з 36 тестів на аудіо- та відеозавдання, випереджаючи моделі Gemini 2.5 Flash та GPT-4o в розпізнаванні мовлення й генерації голосу. Модель використовує архітектуру mixture-of-experts із активацією трьох мільярдів параметрів під час кожного запиту, що дозволяє досягти швидкої обробки та стабільної продуктивності навіть при роботі з декількома типами даних одночасно.
Користувачі можуть налаштовувати поведінку Qwen3-Omni через спеціальні інструкції, наприклад, змінювати стиль або «особистість» відповідей. Модель інтегрується з іншими інструментами та сервісами для виконання складних завдань. Вона доступна у Qwen Chat , як демо на Hugging Face, а розробники можуть підключити її до своїх застосунків через API від Alibaba.
Окрім базової версії, Alibaba випустила спеціалізовану модель Qwen3-Omni-30B-A3B-Captioner для детального опису аудіо, наприклад, музики чи звукових ефектів. У відкритому доступі також з’явилися версії Qwen3-Omni-30B-A3B-Instruct для виконання інструкцій та Qwen3-Omni-30B-A3B-Thinking для складних завдань з міркуванням.