Компанія Hume AI представила нову модель перетворення тексту в мовлення під назвою «Octave», яка покликана змінити підхід до створення синтетичних голосів. На відміну від традиційних систем, що зосереджені на простому перетворенні тексту в мовлення, «Octave» здатна розуміти контекст і емоційні відтінки, що дозволяє створювати більш природне звучання.
Today, we’re releasing Octave: the first LLM built for text-to-speech.
— Hume (@hume_ai) February 26, 2025
🎨Design any voice with a prompt
🎬 Give acting instructions to control emotion and delivery (sarcasm, whispering, etc.)
🛠️Produce long-form content on our Creator Studio
Unlike traditional TTS that just… pic.twitter.com/Fag70tJrod
Особливістю моделі є її здатність створювати динамічні голосові виходи, адаптовані до конкретних ситуацій. Це робить «Octave» ідеальною для застосувань у віртуальних асистентах, інструментах доступності та творчому контенті. Крім того, користувачі можуть налаштовувати голоси та особистості, тонко підбираючи емоційне забарвлення мовлення.
Унікальність «Octave» полягає у фокусі на емоційному інтелекті в машинному навчанні. Використовуючи передові методи обробки природної мови та синтезу мовлення, модель прагне зменшити розрив між механічними голосами та справжнім людським спілкуванням. Це може мати значний вплив на різні галузі — від обслуговування клієнтів до індустрії розваг.
Офіційний випуск «Octave» заплановано на 26 лютого 2025 року. Оглядачі вже висловлюють думку, що ця модель може встановити нові стандарти для систем голосового ШІ, поєднуючи технічну досконалість з практичною універсальністю.