Компанія ElevenLabs, відома своїми досягненнями у сфері генерації аудіо, оголосила про запуск своєї першої самостійної моделі перетворення мовлення в текст під назвою «Scribe». Ця модель підтримує понад дев’яносто дев’ять мов і пропонує точність розпізнавання для більш ніж двадцяти п’яти мов, де рівень помилок складає менше п’яти відсотків. Серед таких мов — англійська, французька, німецька, іспанська та багато інших.
Introducing Scribe — the most accurate Speech to Text model.
— ElevenLabs (@elevenlabsio) February 26, 2025
It has the highest accuracy on benchmarks, outperforming previous state-of-the-art models such as Gemini 2.0 and OpenAI Whisper v3.
It’s now the leading model for English, Spanish, Italian, and many more. With support… pic.twitter.com/A6TzLzFEUL
«Scribe» здатна працювати з реальними аудіосценаріями та забезпечує такі функції, як діаризація мовців, позначення часу на рівні слів для точних субтитрів та автоматичне маркування звукових подій. Модель доступна для розробників через API та панель управління ElevenLabs, де користувачі можуть завантажувати аудіо або відеофайли.
На момент запуску «Scribe» працює лише з попередньо записаними аудіоформатами, але компанія планує незабаром випустити версію з низькою затримкою для роботи в реальному часі. Це відкриває додаткові можливості для використання моделі, зокрема для створення субтитрів для відео або вмісту, який потребує точного розпізнавання мовлення.
Ціна на послугу транскрипції становить сорок центів за годину аудіо, що є конкурентоспроможним на ринку. Хоча деякі конкуренти пропонують нижчі ціни, «Scribe» забезпечує високу точність і додаткові функції.