
最近腾讯混元团队又开源了一款模型,被称为Hunyuan‑GameCraft,而且能够在消费级显卡上进行运行,让普通人能够简单基于一个场景生成动态视频。
也就是只需一张静态图、一段文字描述和简单的动作输入,就能生成拥有高度动态性、超强交互体验的“游戏视频”,而生成的视频同时也拥有电影级的视觉效果。

我们看看官方的介绍:它通过输入一个场景图,然后加入具体的action操作,用来控制玩家的具体视角。那么模型就会根据输入图片、文件和action动作来生成类似的视角视频场景。
再来看看和其他模型的对比,混元这个模型生成的视频非常丝滑,会遵循用户输入的指令进行场景视角的切换。
在以前的方法中,其动态、物理真实感、长期一致性和效率方面都存在局限性,这限制了创建各种游戏视频的能力。而混元团队基本克服了这些缺点,精心挑选的游戏场景数据显著提升了视觉保真度、真实感和动作可控性。
在动态控制这块儿,Hunyuan-GameCraft 把普通的键盘输入都整合进了一个统一的连续动作空间里,那么模型就可以根据不同的action动作加上输入的图像数据进行统一生成,解决了以前action和图像数据两种模态隔离的模式。
这种方法让它有效控制场景的运动轨迹,然后根据输入指令进行有效生成。
同时对于多种action的输入,它也能够进行有效控制。
接下来说说长期一致性。它在模型中提出了一种混合历史条件训练策略,该策略可以自回归地扩展视频序列,同时保留游戏场景信息。

最后,在模型成本上给降下来不少,
以前如果要进行游戏场景的生成,费用不低。但是这个模型经过PCM蒸馏技术把推理步骤都给压缩了,速度一下子就提上去了,成本也跟着降下来了。这么一来呢,使用量化的13B模型,能在RTX 4090这种咱们普通消费者能买得起的GPU上运行。
目前整体模型已经开源在github上,感兴趣的可以去看看:
https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
腾讯开源的这个模型,对比同行业来看,分别有三个不同的优势:
首先是把动作进行统一输入,然后结合连续相机控制进行生成
它通过将键盘与鼠标等离散操作映射进统一的“相机表示空间”,实现细腻的速度与角度控制,让用户能够顺滑地控制场景移动和视角变化
利用了混合历史条件训练策略
通过自回归方式,在每一步生成过程中融合历史帧与当前动作输入,确保生成的视频在长期连续性与场景一致性方面都表现出色。相比仅依赖单帧作为条件的方法,该机制更能保持场景连贯性又不牺牲交互灵活性
为了进行高效推理速率,对模型进行了蒸馏
为了满足实时交互的需求,Hunyuan‑GameCraft 使用了模型蒸馏技术进行加速。例如通过将扩散模型转化为阶段一致性模型(Phased Consistency Model)配合无分类器引导蒸馏,推理速度提升 10~20 倍,响应时延控制在 5 秒以内,达到每秒 ~6.6 帧的实时生成能力
整体模型架构如下所示,给定参考图像和相应的提示,即键盘或鼠标信号(比方说是w、a、s、d这些),将这些选项转换为连续的相机空间。
然后设计一个轻量级的动作编码器来编码输入的相机轨迹。 对于长视频扩展,同时设计了一个可变掩码指标,其中 1 和 0 分别表示历史帧和预测帧。

在 交互式游戏视频生成 中,视频不仅仅是单帧的生成,还要满足:
如果只用当前输入(例如一帧图像 + 动作指令),模型容易出现:
因此,作者提出了 混合历史条件,让模型在训练和推理时既能利用历史,又不过度依赖单一模式。

如下图所示,training-free方法做外推时,历史背景信息不够,结果生成出来的效果时好时坏,而且越往后生成越容易画面崩坏。

混合历史条件训练的目标是,在生成第t帧视频时,模型的条件输入既包括:历史帧信息(History Frames)例如上一时刻的场景画面、特征向量等 → 保证视觉与场景的连续性。动作输入(Action Input)来自键盘/鼠标(已被映射到相机空间) → 保证动作的准确可控性。场景上下文(Scene Context)长时间的全局信息(如地图、环境纹理、任务目标) → 避免短期记忆遗忘。
另外,为了加速模型推理,在技术上也使用了蒸馏技术。通过模型蒸馏,推理速度提高了 10 到 20 倍,并将延迟降低到每个动作 5 秒以内。
数据集构建上,收集了大量的游戏数据。来自 100+ 款 AAA 游戏 的 100 万+ 段游戏录屏(1080p),并在一个精标的合成数据上做微调以增强精细可控性与视觉真实度。

大量实验表明,Hunyuan‑GameCraft 在以下方面全面优于当前多种主流模型(如 Matrix‑Game、CameraCtrl 等):

从结果能看出来:Hunyuan-GameCraft 效果更真实、更生动,控制也更精准,在视频质量、时间连贯性、动作准确性还有动态效果这些方面,它的平均排名分都是最高的。
说真的,Hunyuan-GameCraft 绝对算得上是 AI 游戏发展路上的一个重要里程碑了。
首先需要支持 CUDA 的 NVIDIA GPU。
首先下载代码库:
git clone https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0.git
cd Hunyuan-GameCraft-1.0Linux 安装
我们建议使用 CUDA 12.4 版本进行手动安装。
# 1. Create conda environment
conda create -n HYGameCraft python==3.10
# 2. Activate the environment
conda activate HYGameCraft
# 3. Install PyTorch and other dependencies using conda
conda install pytorch==2.5.1 torchvision==0.20.0 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
# 4. Install pip dependencies
python -m pip install -r requirements.txt
# 5. Install flash attention v2 for acceleration (requires CUDA 11.8 or above)
python -m pip install ninja
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3另外,也可以使用HunyuanVideo的Docker镜像。使用以下命令拉取并运行该Docker镜像。
# For CUDA 12.4 (updated to avoid float point exception)
docker pull hunyuanvideo/hunyuanvideo:cuda_12
docker run -itd --gpus all --init --net=host --uts=host --ipc=host --name hunyuanvideo --security-opt=seccomp=unconfined --ulimit=stack=67108864 --ulimit=memlock=-1 --privileged hunyuanvideo/hunyuanvideo:cuda_12
pip install diffusers==0.34.0 transformers==4.54.1下载预训练模型
下载预训练模型的详细信息:
https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0/blob/main/weights/README.md

在多个 GPU 上进行并行推理
例如,要使用8块GPU生成视频,可以使用以下命令,其中--action-list w s d a模拟键盘操作信号,帮助你生成相应内容的视频。--action-speed-list 0.2 0.2 0.2 0.2表示位移距离,可以替换为0到3之间的任意值。
你可以尝试任意组合和任意长度的动作列表(每 33 帧一个动作,25FPS)来生成长视频,并确保 的长度--action-speed-list必须与 相同--action-list。需要注意的是,推理时间与动作长度呈线性关系:
#!/bin/bash
JOBS_DIR=$(dirname $(dirname "$0"))
export PYTHONPATH=${JOBS_DIR}:$PYTHONPATH
export MODEL_BASE="weights/stdmodels"
checkpoint_path="weights/gamecraft_models/mp_rank_00_model_states.pt"
current_time=$(date "+%Y.%m.%d-%H.%M.%S")
modelname='Tencent_hunyuanGameCraft_720P'
torchrun --nnodes=1 --nproc_per_node=8 --master_port 29605 hymm_sp/sample_batch.py \
--image-path "asset/village.png" \
--prompt "A charming medieval village with cobblestone streets, thatched-roof houses, and vibrant flower gardens under a bright blue sky." \
--add-pos-prompt "Realistic, High-quality." \
--add-neg-prompt "overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion, blurring, text, subtitles, static, picture, black border." \
--ckpt ${checkpoint_path} \
--video-size 704 1216 \
--cfg-scale 2.0 \
--image-start \
--action-list w s d a \
--action-speed-list 0.2 0.2 0.2 0.2 \
--seed 250160 \
--infer-steps 50 \
--flow-shift-eval-video 5.0 \
--save-path './results/'此外,还支持 FP8 优化和SageAttn。要启用 FP8,只需将 添加--use-fp8到您的命令中即可。然后使用以下命令安装 SageAttention:
git clone https://github.com/thu-ml/SageAttention.git
cd SageAttention
python setup.py install # or pip install -e .还提供了加速模型,您可以使用以下命令:
#!/bin/bash
JOBS_DIR=$(dirname $(dirname "$0"))
export PYTHONPATH=${JOBS_DIR}:$PYTHONPATH
export MODEL_BASE="weights/stdmodels"
checkpoint_path="weights/gamecraft_models/mp_rank_00_model_states_distill.pt"
current_time=$(date "+%Y.%m.%d-%H.%M.%S")
modelname='Tencent_hunyuanGameCraft_720P'
torchrun --nnodes=1 --nproc_per_node=8 --master_port 29605 hymm_sp/sample_batch.py \
--image-path "asset/village.png" \
--prompt "A charming medieval village with cobblestone streets, thatched-roof houses, and vibrant flower gardens under a bright blue sky." \
--add-neg-prompt "overexposed, low quality, deformation, a poor composition, bad hands, bad teeth, bad eyes, bad limbs, distortion, blurring, text, subtitles, static, picture, black border." \
--ckpt ${checkpoint_path} \
--video-size 704 1216 \
--cfg-scale 1.0 \
--image-start \
--action-list w s d a \
--action-speed-list 0.2 0.2 0.2 0.2 \
--seed 250160 \
--infer-steps 8 \
--use-fp8 \
--flow-shift-eval-video 5.0 \
--save-path './results_distill/'目前 Hunyuan‑GameCraft 聚焦于相机轨迹控制、不含复杂游戏操作,如射击、爆炸等未来可能加入这些动作类型。但其出色的高动态交互能力、模型效率和生成质量已为实时游戏视频生成奠定了坚实基础 。当然未来,这样的游戏视频生成模型,使得它可以应用于多种场景,比如:
从整体来看,Hunyuan-GameCraft 是跨界 AI 与游戏互动内容创作的一座里程碑。它以统一动作表示、混合历史训练机制与模型蒸馏优化,实现了高互动性、长时一致性与实时生成的“电影级”游戏视频合成效果。伴随开源发布,它已经准备好被用于更广泛的创作与开发场景。喜欢创作、热爱游戏的你,或许该动动手,试试从一张图片开始“玩”你的专属游戏世界。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。