
Chetwin Low 1 , Weimin Wang * † 1 , Calder Katyal 2
final_ovi_trailer.mp4
Ovi是一个类似veo-3的视频+音频生成模型,能够同时从文本或文本+图像输入生成视频和音频内容。
我们提供示例提示来帮助您开始使用Ovi:
我们的提示使用特殊标签来控制语音和音频:
<S>您的语音内容在这里<E> - 这些标签之间的文本将被转换为语音<AUDCAP>音频描述在这里<ENDAUDCAP> - 描述视频中存在的音频或音效为方便创建提示,尝试以下方法:
<S> <E>对之间的语音# 克隆仓库
git clone https://github.com/character-ai/Ovi.git
cd Ovi
# 创建并激活虚拟环境
virtualenv ovi-env
source ovi-env/bin/activate
# 首先安装PyTorch
pip install torch==2.6.0 torchvision torchaudio
# 安装其他依赖
pip install -r requirements.txt
# 安装Flash Attention
pip install flash_attn --no-build-isolation要下载我们的主要Ovi检查点,以及来自Wan的T5和vae解码器,以及来自MMAudio的音频vae:
# 默认下载到./ckpts,推理yaml设置为./ckpts,因此无需更改
python3 download_weights.py
# 或者指定--output-dir下载到特定目录
python3 download_weights.py --output-dir <custom_dir>
# 如果只有约24Gb GPU VRAM,请下载fp8量化版本
wget -O "./ckpts/Ovi/model_fp8_e4m3fn.safetensors" "https://huggingface.co/rkfg/Ovi-fp8_quantized/resolve/main/model_fp8_e4m3fn.safetensors"Ovi的行为和输出可以通过修改ovi/configs/inference/inference_fusion.yaml配置文件来自定义。
以下参数控制生成质量、视频分辨率以及文本、图像和音频输入的平衡:
# 输出和模型配置
output_dir: "/path/to/save/your/videos" # 保存生成视频的目录
ckpt_dir: "/path/to/your/ckpts/dir" # 模型检查点路径
# 生成质量设置
num_steps: 50 # 去噪步骤数。较低(30-40)= 更快生成
solver_name: "unipc" # 去噪过程的采样算法
shift: 5.0 # 采样调度器的时间步偏移因子
seed: 100 # 可重现结果的随机种子
# 引导强度控制
audio_guidance_scale: 3.0 # 音频条件强度。较高 = 更好的音频-文本同步
video_guidance_scale: 4.0 # 视频条件强度。较高 = 更好的视频-文本遵循
slg_layer: 11 # 应用SLG(跳过层引导)技术的层
# 多GPU和性能
sp_size: 1 # 序列并行大小。设置为使用的GPU数量
cpu_offload: False # CPU卸载,将大幅减少峰值GPU VRAM,但增加端到端运行时间约20秒
fp8: False # 加载fp8版本模型,会有质量下降,推理时间不会加快
# 输入配置
text_prompt: "/path/to/csv" or "your prompt here" # 文本提示或包含提示的CSV/TSV文件路径
mode: ['i2v', 't2v', 't2i2v'] # 生成t2v、i2v或t2i2v
video_frame_height_width: [512, 992] # T2V模式的视频尺寸[高度,宽度]
each_example_n_times: 1 # 每个提示生成的次数
# 质量控制(负面提示)
video_negative_prompt: "jitter, bad hands, blur, distortion" # 视频中要避免的伪影
audio_negative_prompt: "robotic, muffled, echo, distorted" # 音频中要避免的伪影单GPU(简单设置)
python3 inference.py --config-file ovi/configs/inference/inference_fusion.yaml多GPU(并行处理)
torchrun --nnodes 1 --nproc_per_node 8 inference.py --config-file ovi/configs/inference/inference_fusion.yaml我们提供了一个简单的脚本来在gradio UI中运行我们的模型:
python3 gradio_app.py
# 启用CPU卸载以节省GPU VRAM
python3 gradio_app.py --cpu_offload
# 启用额外的图像生成模型为I2V生成第一帧
python3 gradio_app.py --use_image_gen
# 使用24Gb GPU VRAM运行模型
python3 gradio_app.py --cpu_offload --qint8我们要感谢以下项目:
我们欢迎各种类型的合作!无论您有反馈、想要贡献或有任何问题,请随时联系我们。
联系:如有任何问题或反馈,请联系Weimin Wang。
如果Ovi对您有帮助,请帮忙给仓库点⭐。
如果您发现这个项目对您的研究有用,请考虑引用我们的论文。
BibTeX
@misc{low2025ovitwinbackbonecrossmodal,
title={Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation},
author={Chetwin Low and Weimin Wang and Calder Katyal},
year={2025},
eprint={2510.01284},
archivePrefix={arXiv},
primaryClass={cs.MM},
url={https://arxiv.org/abs/2510.01284},
}原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。