Нова модель Octave від Hume AI змінює емоційний синтез мовлення

Octave здатна розуміти контекст і емоції, що робить її ідеальною для віртуальних асистентів і творчого контенту

Опубліковано: 27.02.2025

Скриншот з відео Hume AI

Компанія Hume AI представила нову модель перетворення тексту в мовлення під назвою «Octave», яка покликана змінити підхід до створення синтетичних голосів. На відміну від традиційних систем, що зосереджені на простому перетворенні тексту в мовлення, «Octave» здатна розуміти контекст і емоційні відтінки, що дозволяє створювати більш природне звучання.

Today, we’re releasing Octave: the first LLM built for text-to-speech.

🎨Design any voice with a prompt
🎬 Give acting instructions to control emotion and delivery (sarcasm, whispering, etc.)
🛠️Produce long-form content on our Creator Studio

Unlike traditional TTS that just… pic.twitter.com/Fag70tJrod
— Hume (@hume_ai) February 26, 2025

Особливістю моделі є її здатність створювати динамічні голосові виходи, адаптовані до конкретних ситуацій. Це робить «Octave» ідеальною для застосувань у віртуальних асистентах, інструментах доступності та творчому контенті. Крім того, користувачі можуть налаштовувати голоси та особистості, тонко підбираючи емоційне забарвлення мовлення.

Унікальність «Octave» полягає у фокусі на емоційному інтелекті в машинному навчанні. Використовуючи передові методи обробки природної мови та синтезу мовлення, модель прагне зменшити розрив між механічними голосами та справжнім людським спілкуванням. Це може мати значний вплив на різні галузі — від обслуговування клієнтів до індустрії розваг.

Офіційний випуск «Octave» заплановано на 26 лютого 2025 року. Оглядачі вже висловлюють думку, що ця модель може встановити нові стандарти для систем голосового ШІ, поєднуючи технічну досконалість з практичною універсальністю.