Tencent представила систему ШІ Hunyuan-GameCraft , яка створює інтерактивні відео з окремих зображень. На відміну від звичайних генераторів відео, Hunyuan-GameCraft дозволяє користувачу керувати камерою в реальному часі за допомогою клавіш WASD або стрілок. Це дає змогу вільно переміщатися у згенерованих сценах і оглядати їх з різних ракурсів.

Система працює на базі відкритої моделі HunyuanVideo і підтримує переміщення вперед, назад, вліво, вправо, вгору і вниз, а також обертання камери вліво і вправо. Кожен рух клавіш перекладається у числові значення, які розуміє відеогенератор. ШІ враховує тривалість натискання, що впливає на швидкість руху у сцені.
Для покращення якості відео під час довгих сесій Tencent застосувала метод Hybrid History-Conditioned Training. Модель створює кожен новий фрагмент відео поступово, спираючись на попередні кадри. Завдяки цьому відео залишається плавним і реагує на дії користувача без втрати якості.
Hunyuan-GameCraft навчалася на понад мільйоні записів ігрового процесу зі ста відомих ігор, серед яких Assassin’s Creed, Red Dead Redemption і Cyberpunk 2077. Додатково команда створила три тисячі рухових послідовностей на основі 3D-об’єктів. Під час тестування система показала точніше керування і кращу якість зображення у порівнянні з іншими ШІ для камери.
GameCraft працює зі швидкістю до 6,6 кадрів на секунду у реальному часі і реагує на дії користувача менш ніж за п’ять секунд. Весь код і ваги моделі доступні на GitHub, а вебдемо готується до запуску. Система доповнює перелік ШІ для створення інтерактивних світів, серед яких вже є продукти від Google DeepMind і Skywork.