
克隆声音,生成语音,构建语音驱动的应用程序。 所有功能均在本地运行,无需依赖云端。

Voicebox 演示视频[2]


Voicebox 是一个本地优先的语音克隆工作室,具有类似数字音频工作站(DAW)的功能,用于专业的语音合成。把它当作 ElevenLabs 的本地、免费的开源替代品 —— 下载模型,克隆声音,并完全在你的计算机上生成语音。
与将你的语音数据锁定在订阅服务中的云平台不同,Voicebox 为你提供:
•完全隐私 — 模型和语音数据保留在你的计算机上•专业工具 — 多轨时间轴编辑器、音频剪辑、对话混音•模型灵活性 — 目前支持 Qwen3-TTS,还将支持 XTTS、Bark 及其他模型•API优先 — 可使用桌面应用,或将语音合成集成到你自己的项目中•原生性能 — 使用 Tauri(Rust)构建,而非 Electron•在 Mac 上超级快速 — MLX 后端支持 Apple Silicon 上的原生 Metal 加速,推理速度比同类快 4-5 倍
下载一个语音模型,克隆任何语音,只需几秒钟的音频,并使用专业级编辑工具制作多语音项目。无需安装 Python,免云依赖,无使用限制。
Voicebox 现已提供 macOS 和 Windows 版本下载。
平台 | 下载链接 |
|---|---|
macOS (Apple Silicon) | voicebox_aarch64.app.tar.gz |
macOS (Intel) | voicebox_x64.app.tar.gz |
Windows (MSI) | voicebox_0.1.0_x64_en-US.msi |
Windows (Setup) | voicebox_0.1.0_x64-setup.exe |
Linux 版本即将发布 —— 当前因 GitHub runner 磁盘空间限制暂时阻塞。
由阿里巴巴的 Qwen3-TTS 提供支持 — 这是一款突破性的模型,仅需几秒钟的音频即可实现几乎完美的语音克隆。
•即时克隆 — 上传样本,获取语音档案•高保真 — 自然的语调、情感和韵律•多语言 — 支持英语、中文,更多语言正在开发中•Mac 上超快 — MLX 后端利用 Apple Silicon 的神经引擎,生成速度超快
•从音频文件创建档案或直接在应用中录音•导入/导出档案,便于分享或备份•支持多样本 — 结合多个样本以实现更高质量的克隆•使用描述和语言标签进行组织
•使用任何克隆的语音进行文本转语音•批量生成长篇内容•智能缓存 — 通过语音提示缓存,快速重新生成
•使用基于时间线的编辑器创建多语音叙事、播客和对话。•多轨编排 — 在一个项目中安排多个语音轨道•内联音频编辑 — 在时间轴中直接修剪和拆分音频片段•自动播放 — 预览故事时同步播放头•语音混音 — 创建包含多个参与者的对话
•应用内录音,带波形可视化•系统音频捕捉 — 在 macOS 和 Windows 上录制桌面音频•自动转录 — 基于 Whisper 技术•以多种格式导出录音
•全部生成音频的历史记录•可按语音、文本或日期进行搜索和筛选•一键重新生成任何历史生成内容
•本地模式 — 一切运行在你的计算机上•远程模式 — 连接到你网络中的 GPU 服务器•一键服务器 — 将任何计算机转换为 Voicebox 服务器
Voicebox 提供完整的 REST API,方便你将语音合成功能集成到自己的应用中。
# 生成语音
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'
# 列出语音档案
curl http://localhost:8000/profiles
# 创建语音档案
curl -X POST http://localhost:8000/profiles \
-H "Content-Type: application/json" \
-d '{"name": "My Voice", "language": "en"}'•游戏对话系统•播客/视频制作流程•无障碍工具•语音助手•内容创作自动化
完整的API文档可以在运行时通过访问 http://localhost:8000/docs查看。
层级 | 技术 |
|---|---|
桌面应用 | Tauri (Rust) |
前端 | React, TypeScript, Tailwind CSS |
状态管理 | Zustand, React Query |
后端 | FastAPI (Python) |
语音模型 | Qwen3-TTS (PyTorch 或 MLX) |
转录 | Whisper (PyTorch 或 MLX) |
推理引擎 | MLX (Apple Silicon) / PyTorch (Windows/Linux/Intel) |
数据库 | SQLite |
音频处理 | WaveSurfer.js, librosa |
•Tauri 而非 Electron — 包体体积小 10 倍,本地性能更好,内存占用更低•FastAPI — 异步 Python,自动生成 OpenAPI Schema•类型安全的端到端 — 基于 OpenAPI 规范生成 TypeScript 客户端
详细的设置和贡献指南请参见 CONTRIBUTING.md[3]。
运行 make help 以查看所有可用的命令,包括设置、开发、构建和测试相关的操作。
# 克隆仓库
git clone https://github.com/voicebox-sh/voicebox.git
cd voicebox
# 设置环境
make setup
# 开始开发
make dev# 克隆仓库
git clone https://github.com/voicebox-sh/voicebox.git
cd voicebox
# 安装依赖
bun install
# 安装 Python 依赖
cd backend && pip install -r requirements.txt && cd ..
# 开始开发
bun run dev•Bun[4]•Rust[5]•Python 3.11 及以上版本[6]
•Apple Silicon (M1/M2/M3): 使用 MLX 后端,结合原生 Metal 加速,推理速度提高 4-5 倍•Windows/Linux/Intel Mac: 使用 PyTorch 后端(推荐使用 CUDA GPU,支持 CPU 但速度较慢)
https://github.com/jamiepine/voicebox?tab=readme-ov-file[1] voicebox.sh • 下载 • 功能 • API • 路线图:https://voicebox.sh
[2]Voicebox 演示视频:https://voicebox.sh
[3]CONTRIBUTING.md:v
[4]Bun:https://bun.sh/
[5]Rust:https://rustup.rs/
[6]Python 3.11 及以上版本: https://www.python.org/