Hume.ai представила EVI 3 — третю генерацію мовленнєвої моделі для персоналізованого голосового ШІ. Модель поєднує розпізнавання мовлення, обробку запитів і синтез голосу, забезпечуючи відповіді приблизно за триста мілісекунд. EVI 3 дозволяє створювати нові голоси на основі текстових описів, використовуючи комбінації з понад ста тисяч зразків записів, а також налаштовувати інтонацію, темп і емоційний стиль за допомогою навчання з підкріпленням.
Завдяки змішаній системі текстово-голосових токенів модель може інтегрувати зовнішні інструменти безпосередньо під час відповіді. Серед доступних голосів — як стандартні варіанти з різними характерами та описами, так і можливість створення власного голосу за допомогою простого текстового запиту. За результатами сліпого тестування з понад тисячею сімсот учасників EVI 3 показала кращі показники за емпатією, виразністю, природністю, обробкою переривань, швидкістю та якістю звуку у порівнянні з такими моделями, як GPT-4o, Gemini та Sesame.
Демонстраційна версія EVI 3 вже доступна через вебінтерфейс і додаток для iOS, а доступ до API зʼявиться найближчими тижнями. Модель орієнтована на використання у сферах клієнтської підтримки, коучингу для здоровʼя, іграх та інших сферах, де важлива якість голосової взаємодії. Вартість поки не оголошена, але попередня версія коштувала сім центів за хвилину використання.
Наразі EVI 3 спеціалізується на англійській мові, проте компанія планує додати підтримку французької, німецької, італійської та іспанської до повного релізу.