Команда Qwen з Alibaba Cloud представила дві нові ШІ-моделі, які дозволяють створювати або копіювати голоси за допомогою текстових команд. Обидві моделі можуть генерувати мовлення на основі тексту та відтворювати голос, схожий на оригінальний, після прослуховування лише трьох секунд аудіо.
Користувачі можуть вводити текст, а система перетворює його на мову з заданими характеристиками. Для клонування голосу достатньо короткого аудіофрагмента, що робить процес швидким і зручним. Моделі підтримують різні мови, зокрема англійську та китайську, і працюють з інтонацією та стилем мовлення.
Розробники повідомили, що ці ШІ-моделі можна використовувати для створення персоналізованих голосових асистентів, озвучення відео або аудіокниг, а також для навчальних та розважальних застосунків. Сервіс розрахований на широку аудиторію, включаючи розробників і звичайних користувачів.
Alibaba Cloud планує надалі вдосконалювати ці інструменти та розширювати їх функції, орієнтуючись на безпеку та захист даних користувачів. Нові можливості вже доступні для тестування через офіційні канали компанії.


