Google оголосила про оновлення моделей Gemini 2.5 Flash і Gemini 2.5 Pro для синтезу голосу, які тепер доступні розробникам через Gemini API у Google AI Studio. Ці моделі створені для застосувань, де важлива виразність мови, наприклад для озвучення аудіокниг, навчальних курсів, інструкцій до продуктів, подкастів і багатоголосих проєктів.
Оновлення додало ширший вибір емоційних стилів і тонів, точніше дотримання стилістичних підказок, розумне регулювання швидкості читання залежно від контексту і стабільнішу підтримку кількох голосів, яка тепер охоплює 24 мови. Моделі замінили попередні версії, щоб користувачі одразу отримали доступ до більш природного синтезу мовлення.
Gemini 2.5 Flash TTS оптимізована для швидких інтерактивних рішень і підходить для застосунків, де час відгуку критичний. Gemini 2.5 Pro TTS забезпечує високу якість голосу, що важливо для проєктів з високими вимогами до звучання. Користувачі можуть детально керувати швидкістю, тоном і ідентичністю персонажів, а оновлення покращило багатомовність.
Партнери вже використовують ці моделі для просунутих функцій, включаючи точне налаштування діалогів і корегування вимови чи інтонації. Ранні користувачі відзначили можливість створювати кінематографічні озвучення для різних персонажів і мов.
Google надає ці інструменти для розробників по всьому світу через Google AI Studio, щоб підтримати потреби у створенні більш реалістичного та гнучкого синтезу мовлення для творчих і технічних завдань.


