这里推荐几个GitHub上热门、好用的配音/语音合成/语音克隆项目,有通用TTS、语音克隆、视频配音、流式/轻量等不同需求的。
▌1. GPT-SoVITS(⭐ 45k+)
地址:https://github.com/RVC-Boss/GPT-SoVITS
功能:
- 零样本克隆:5秒音频即可克隆声线
- 少样本微调:1分钟训练,相似度/真实感大幅提升
- 多语言:中/英/日/韩/粤,跨语言保持音色
- WebUI:音伴分离、切片、ASR、标注,新手友好
▌2. OpenVoice(⭐ 34k+)
地址:https://github.com/myshell-ai/OpenVoice
功能:
- 极速克隆:仅需3秒参考音频
- 多语言:中英日韩法西,无缝切换
- MIT协议:完全开源、可商用
▌ 3. Real-Time-Voice-Cloning(⭐ 52k+)
地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
功能:
- 经典实时语音克隆框架,5秒克隆、实时生成
- 社区成熟、教程多,适合二次开发
▌ 4. Coqui TTS(⭐ 34k+)
地址:https://github.com/coqui-ai/TTS
功能:
- 超全语言:支持1100+语言
- 多模型:YourTTS、VITS、Bark等,兼顾质量与速度
- 声音克隆:YourTTS仅需3秒音频即可克隆
- 可训练、可微调、可离线
▌5. ChatTTS(⭐ 35k+)
地址:https://github.com/2noise/ChatTTS
功能:
- 对话优化:自然度高、语气贴近真人对话
- 生成快、一次成型,适合短视频、播客、客服
▌6. EmotiVoice(网易有道,⭐ 8k+)
地址:https://github.com/netease-youdao/EmotiVoice
- 功能:
- 情感可控:支持喜/怒/哀/乐等多种情感
- 多音色、多语言,中文自然度优秀
▌7. YouDub(⭐ 1.2k+)
地址:https://github.com/liuzhao1225/YouDub
- 功能:
- 自动:YouTube视频 → 语音识别 → 翻译 → 克隆原UP主音色 → 中文配音
- 一键流程,适合内容创作者搬运=
▌8. VideoLingo(⭐ 2.5k+)
地址:https://github.com/Huanshere/VideoLingo
- 功能:
- Netflix级字幕+配音一体化
- 支持GPT-SoVITS、Azure、OpenAI等多TTS引擎
- 音视频同步、背景音分离、音质优化
▌9. Fish Speech(⭐ 10k+)
地址:https://github.com/fishaudio/fish-speech
- 功能:
- 基于VITS2,高质量、多语言、语音克隆
- 推理快、支持批量处理、全开源
▌10. VoxCPM(OpenBMB,⭐ 2k+)
地址:https://github.com/OpenBMB/VoxCPM
- 功能:
- 无分词器TTS,直接在连续语音空间建模
- 上下文感知、零样本克隆、自然度高