Французька компанія Mistral представила Voxtral — відкриту мовну модель для розпізнавання та розуміння мовлення. Вона доступна у двох версіях: Voxtral Small 24B для виробничих застосувань і компактна Voxtral 3B для локального або edge-використання. Обидві підтримують вікно контексту на 32 тисячі токенів, що дозволяє обробляти аудіофайли до 30 хвилин для транскрипції та до 40 хвилин для завдань розуміння.
Модель розпізнає англійську, іспанську, французьку, португальську, гінді, німецьку, нідерландську та італійську мови. Вона поєднує транскрипцію, відповіді на питання і підсумовування без потреби у додаткових мовних чи розпізнавальних модулях. Користувачі можуть запускати функції у бекенді через голосові команди, оскільки модель автоматично перетворює запити у виклики API.
За результатами тестів Mistral, Voxtral Small перевершує Whisper large-v3, GPT-4o mini Transcribe та Gemini 2.5 Flash у більшості завдань, зокрема на англомовних коротких фрагментах і у багатомовних тестах FLEURS. Модель також показала конкурентні результати у розумінні аудіо та перекладі мовлення, а Voxtral Mini Transcribe працює точніше і дешевше за OpenAI Whisper.
API Voxtral пропонує ціну від 0,001 долара за хвилину, а для корпоративних клієнтів доступна приватна інсталяція та тонке налаштування під галузеві потреби. У найближчих оновленнях з’являться сегментація за голосами, розмітка емоцій та віку, а також таймкоди на рівні слів.
Моделі вже доступні для завантаження на Hugging Face під ліцензією Apache-2.0 та через API. У найближчі тижні Voxtral стане основою голосового режиму в Le Chat, що дозволить користувачам диктувати повідомлення і взаємодіяти з платформою голосом як на вебверсії, так і на мобільних пристроях.