Meta анонсувала модель ШІ, що може генерувати відео зі звуком

У компанії стверджують, що Movie Gen може конкурувати з розробками таких провідних компаній, як OpenAI, ElevenLabs та Runway.

Igor Lev

Опубліковано: 16.10.2024

Новини

Марк Цукерберг виступає в Менло-Парку, штат Каліфорнія, 25 вересня 2024 рокуGodofredo A Vásquez/AP

Представлені Meta приклади демонструють, як Movie Gen створює відео із тваринами, що пливуть або займаються серфінгом, а також використовує реальні фото користувачів, щоб зобразити їх за виконанням різних дій, наприклад, під час малювання. Модель також вміє синхронізувати звукові ефекти з відеоконтентом, що значно розширює її можливості. «Movie Gen» дозволяє редагувати вже наявні відео — в одному з прикладів інструмент додав помпони в руки чоловіку, що біг у пустелі, а в іншому — змінив сухий асфальт на калюжі під скейтбордистом.

Згідно з даними Meta, відео можуть тривати до 16 секунд, тоді як звуковий супровід — до 45 секунд. Результати тестувань показали, що Movie Gen не поступається продуктам конкурентів.

Випуск цього інструменту відбувається на тлі дискусій у Голлівуді про використання ШІ у виробництві фільмів, які почалися після презентації OpenAI моделі Sora на початку року. Meta зазначила, що не планує робити Movie Gen доступним для розробників, як це було з серією мовних моделей Llama, а скоріше співпрацюватиме з представниками індустрії розваг та інтегруватиме інструмент у власні продукти.

Для створення Movie Gen компанія використовувала суміш ліцензованих та загальнодоступних даних, як зазначено в дослідницькому документі, опублікованому Meta. Компанія також зазначила, що продовжує оцінювати ризики, пов’язані з використанням ШІ, у тому числі й можливість створення діпфейків, які викликають занепокоєння під час виборів у різних країнах.