Podcastle запускає нову модель перетворення тексту в мовлення

Asyncflow v1.0 пропонує понад 450 ШІ-голосів і API для інтеграції у додатки розробників

Опубліковано: 03.03.2025

Приклади голосів

Платформа для запису та редагування подкастів Podcastle приєдналася до інших компаній у сфері генеративного ШІ, випустивши власну модель перетворення тексту в мовлення під назвою Asyncflow v1.0. Для розробників також буде доступний API, що дозволить інтегрувати цю модель безпосередньо у свої додатки. Завдяки новій моделі, компанія може запропонувати понад чотириста п’ятдесят ШІ-голосів, які можуть озвучувати текст.

Podcastle долучилася до ряду стартапів, таких як ElevenLabs, Speechify та WellSaid, які розробили технології для перетворення тексту на голосовий кліп, озвучений ШІ. Ця технологія має широке застосування в маркетингу, рекламі, створенні контенту, освіті та корпоративному навчанні.

Засновник Podcastle, Арто Єрицяян, зазначив, що компанія завжди прагнула створити модель перетворення тексту в мовлення, але витрати на навчання та вимоги до даних були занадто високими. Завдяки розвитку великих мовних моделей, їм вдалося досягти значного прогресу минулого року, що дозволило створити якісну голосову модель без потреби у великій кількості даних.

Podcastle також удосконалює свою функцію клонування голосу, що тепер дозволяє швидше тренувати модель. Раніше процес тренування вимагав читання близько сімдесяти різних речень, а тепер достатньо лише кілька секунд запису, щоб створити клон вашого голосу. Цей процес використовує технологію Magic Dust AI, яка була випущена минулого року для покращення якості аудіозаписів. Компанія зазначила, що з часом планує поліпшити цю функцію.