OpenAI анонсувала нові моделі для голосового синтезу та транскрипції

Нові моделі здатні передавати емоції в голосі і краще розпізнавати акценти, але не будуть відкритими

Опубліковано: 21.03.2025

Компанія OpenAI представила нові моделі генеративного ШІ для транскрипції та голосового синтезу, які інтегруються в API. Нові моделі, що отримали назви gpt-4o-mini-tts та gpt-4o-transcribe, обіцяють покращити попередні версії за рахунок більш реалістичного звучання та здатності до налаштування під різні стилі мовлення. Наприклад, розробники можуть задати моделі говорити «як божевільний вчений» або з «спокійним голосом, як у вчителя медитації».

Нові моделі трансформують текст у мову з більшою точністю та здатні відтворювати емоційні відтінки в голосі. Це може бути корисним для різноманітних застосувань, наприклад, у сфері підтримки клієнтів, де необхідно передати вибачення або співчуття за допомогою голосу. За словами представників OpenAI, це дозволяє користувачам і розробникам контролювати не лише те, що сказано, а й те, як це звучить.

Модель gpt-4o-transcribe замінює попередню модель Whisper для транскрипції. Вона навчена на різноманітних аудіоданих високої якості, що дозволяє краще розпізнавати акценти і різноманітні мовні варіації, навіть у складних умовах. Це значно зменшує ймовірність помилок, які раніше траплялися з Whisper, таких як вигадані слова або фрази у транскриптах.

Незважаючи на покращення, OpenAI не планує відкрито публікувати нові моделі транскрипції. Представники компанії зазначають, що нові моделі значно більші за Whisper і не є оптимальними для локального використання на звичайних пристроях. Вони підкреслюють важливість обережного підходу до відкритого виходу, щоб забезпечити відповідність моделей певним потребам.