На днях стала доступна для широкої аудиторії нова безкоштовна та опенсорсна модель генерації відео з тексту та зображень «Pyramid Flow SD3». Головною особливістю моделі є те, що вона генерує відео тривалістю до 10 секунд при роздільній здатності 768p та частоті 24 кадри на секунду, що суттєво перевищує можливості конкурентів, які за замовчуванням створюють 5-секундні відео.
Ця модель є повністю відкритою та доступною для локального використання, що дозволяє ентузіастам і розробникам працювати з нею без обмежень пропрієтарного софту. Її доступність на платформі HuggingFace відкриває широкі можливості для експериментів та розвитку нових рішень у сфері відеогенерації.

Основою «Pyramid Flow SD3» є нова методика, названа Pyramid Flow, яка поєднує авторегресивне генерування відео та метод Flow Matching, що забезпечує плавний перехід між кадрами, створюючи реалістичні та динамічні відео. Такий підхід дозволяє моделі генерувати не тільки текстові запити, але й працювати у режимі «зображення-відео».
Ця модель може стати справжнім проривом для творців контенту, дозволяючи швидко створювати відео високої якості без використання складного обладнання чи програмного забезпечення. Її відкритий код та використання загальнодоступних датасетів створюють умови для прозорого розвитку технологій та прискорюють прогрес у сфері ШІ-відео.