Двадцять першого квітня ShengShu Technology презентувала Vidu Q1 — браузерну модель, що дозволяє користувачам створювати п’ятисекундні відео у форматі 1080p на основі двох зображень і текстового опису. Завдяки підходу «First-to-Last Frame» рухи у кліпі залишаються послідовними, навіть якщо вихідні зображення не пов’язані між собою, що відкриває нові можливості для самостійного монтажу з плавними переходами між сценами.
У новій версії аудіо інтегроване безпосередньо у робочий процес — текстові підказки дозволяють генерувати фонову музику чи звукові ефекти з частотою 48 кГц, додавати багатошарові доріжки тривалістю до десяти секунд і використовувати часові команди, наприклад «0–2 с вітер». Це дає змогу відмовитися від зовнішніх бібліотек звуків і робить процес монтажу швидшим.
Vidu Q1 також пропонує покращену генерацію аніме — з більш чіткими лініями та стабільнішим поєднанням кадрів, що базується на методі збереження цілісності зображень, уперше представленому у Vidu 1.5. За внутрішніми тестами VBench, модель перевершує Runway Gen-2, OpenAI Sora та Luma Dream Machine за точністю відповідності запиту та узгодженістю кадрів.
Однією з перших компаній, що протестували Vidu Q1, стала Aura Productions — вона повідомила про зниження витрат на постпродакшн для аніме-серіалу у п’ятдесят серій у декілька разів. Модель об’єднує миттєві переходи між зображеннями, швидкий рендеринг, удосконалене створення аніме та багатошарове аудіо, надаючи малим командам та блогерам доступ до можливостей кінематографічної обробки без потреби у фахівцях з візуальних ефектів чи звуку.
ShengShu Technology, заснована у Сінгапурі у дві тисячі двадцять третьому році, спеціалізується на мультимодальних великих мовних моделях. Після відкриття платформи Vidu для комерційних користувачів у липні дві тисячі двадцять четвертого року, компанія вже обслуговує творців у понад двохстах регіонах та активно співпрацює з кіностудіями, рекламними агентствами й соціальними медіа для впровадження нових функцій Q1.