Компанія Resemble AI презентувала Chatterbox — безкоштовну відкриту ШІ-модель для клонування голосу, яка працює локально на комп’ютері та дає змогу керувати емоційним тоном, зокрема обирати «драматичний» або «монотонний» стиль. Для створення копії голосу достатньо кількох секунд аудіо. Відповідь система генерує менш ніж за 200 мілісекунд.
Chatterbox підтримує операційні системи Windows, Mac і Linux. Для стабільної роботи моделі потрібно 5–6 гігабайт відеопам’яті. Кожен згенерований голос містить ледве помітний водяний знак «PerTh», який дозволяє ідентифікувати штучне походження мови.
За заявою Resemble AI, Chatterbox перевершила ElevenLabs під час сліпих тестувань. На жаль, на даний момент модель працює тільки з англійською мовою.
Модель має ліцензію MIT і орієнтована в першу чергу на розробників. Детальніше з роботою Chatterbox можна ознайомитися на сторінці з офіційним демо.