Дослідники з Meta та Каліфорнійського університету в Берклі представили систему ШІ під назвою StreamDiT, яка створює відео у прямому ефірі на основі текстових описів. StreamDiT генерує відео в реальному часі зі швидкістю 16 кадрів на секунду, використовуючи лише одну потужну відеокарту. Модель містить 4 мільярди параметрів і забезпечує роздільну здатність 512p.
StreamDiT відрізняється від попередніх рішень тим, що створює відео потоково, кадр за кадром, а не готує весь ролик наперед. Завдяки цьому система може відповідати на інтерактивні запити та змінювати відео прямо під час трансляції.
Архітектура StreamDiT побудована для швидкої обробки: система використовує буфер, що дозволяє одночасно працювати над кількома кадрами і поступово покращувати їх якість. Для досягнення універсальності модель навчали на 3 тисячах якісних відео та великому наборі з 2,6 мільйона роликів.
StreamDiT показала кращі результати, ніж інші моделі, зокрема ReuseDiffuse та FIFO diffusion, особливо для динамічних сцен. Оцінювачі відзначили плавність руху, повноту анімації та якість зображення у коротких відео тривалістю до восьми секунд. Команда тестувала й більшу версію моделі з 30 мільярдами параметрів, яка забезпечила ще вищу якість, хоча працювала повільніше.
StreamDiT вже вміє генерувати хвилинні відео на ходу, відповідати на запити користувача і редагувати відео у реальному часі. Розробники продовжують роботу над поліпшенням памʼяті моделі та згладжуванням переходів між фрагментами відео.