首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Voicebox-轻松管理你的语音克隆与音色设计

Voicebox-轻松管理你的语音克隆与音色设计

作者头像
山行AI
发布2026-03-13 16:07:40
发布2026-03-13 16:07:40
3310
举报

克隆声音,生成语音,构建语音驱动的应用程序。 所有功能均在本地运行,无需依赖云端。

Voicebox App Screenshot
Voicebox App Screenshot

Voicebox 演示视频[2]

Voicebox Screenshot 2
Voicebox Screenshot 2
Voicebox Screenshot 3
Voicebox Screenshot 3

什么是 Voicebox?

Voicebox 是一个本地优先的语音克隆工作室,具有类似数字音频工作站(DAW)的功能,用于专业的语音合成。把它当作 ElevenLabs 的本地、免费的开源替代品 —— 下载模型,克隆声音,并完全在你的计算机上生成语音。

与将你的语音数据锁定在订阅服务中的云平台不同,Voicebox 为你提供:

完全隐私 — 模型和语音数据保留在你的计算机上•专业工具 — 多轨时间轴编辑器、音频剪辑、对话混音•模型灵活性 — 目前支持 Qwen3-TTS,还将支持 XTTS、Bark 及其他模型•API优先 — 可使用桌面应用,或将语音合成集成到你自己的项目中•原生性能 — 使用 Tauri(Rust)构建,而非 Electron•在 Mac 上超级快速 — MLX 后端支持 Apple Silicon 上的原生 Metal 加速,推理速度比同类快 4-5 倍

下载一个语音模型,克隆任何语音,只需几秒钟的音频,并使用专业级编辑工具制作多语音项目。无需安装 Python,免云依赖,无使用限制。

下载

Voicebox 现已提供 macOS 和 Windows 版本下载。

平台

下载链接

macOS (Apple Silicon)

voicebox_aarch64.app.tar.gz

macOS (Intel)

voicebox_x64.app.tar.gz

Windows (MSI)

voicebox_0.1.0_x64_en-US.msi

Windows (Setup)

voicebox_0.1.0_x64-setup.exe

Linux 版本即将发布 —— 当前因 GitHub runner 磁盘空间限制暂时阻塞。

功能

基于 Qwen3-TTS 的语音克隆

由阿里巴巴的 Qwen3-TTS 提供支持 — 这是一款突破性的模型,仅需几秒钟的音频即可实现几乎完美的语音克隆。

即时克隆 — 上传样本,获取语音档案•高保真 — 自然的语调、情感和韵律•多语言 — 支持英语、中文,更多语言正在开发中•Mac 上超快 — MLX 后端利用 Apple Silicon 的神经引擎,生成速度超快

语音档案管理

•从音频文件创建档案或直接在应用中录音•导入/导出档案,便于分享或备份•支持多样本 — 结合多个样本以实现更高质量的克隆•使用描述和语言标签进行组织

语音生成

•使用任何克隆的语音进行文本转语音•批量生成长篇内容•智能缓存 — 通过语音提示缓存,快速重新生成

故事编辑器

•使用基于时间线的编辑器创建多语音叙事、播客和对话。•多轨编排 — 在一个项目中安排多个语音轨道•内联音频编辑 — 在时间轴中直接修剪和拆分音频片段•自动播放 — 预览故事时同步播放头•语音混音 — 创建包含多个参与者的对话

录音与转录

•应用内录音,带波形可视化•系统音频捕捉 — 在 macOS 和 Windows 上录制桌面音频•自动转录 — 基于 Whisper 技术•以多种格式导出录音

生成历史

•全部生成音频的历史记录•可按语音、文本或日期进行搜索和筛选•一键重新生成任何历史生成内容

灵活部署

本地模式 — 一切运行在你的计算机上•远程模式 — 连接到你网络中的 GPU 服务器•一键服务器 — 将任何计算机转换为 Voicebox 服务器

API

Voicebox 提供完整的 REST API,方便你将语音合成功能集成到自己的应用中。

代码语言:javascript
复制
# 生成语音
curl -X POST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'

#  列出语音档案
curl http://localhost:8000/profiles

#  创建语音档案
curl -X POST http://localhost:8000/profiles \
-H "Content-Type: application/json" \
-d '{"name": "My Voice", "language": "en"}'
用例:

•游戏对话系统•播客/视频制作流程•无障碍工具•语音助手•内容创作自动化

完整的API文档可以在运行时通过访问 http://localhost:8000/docs查看。

技术栈

层级

技术

桌面应用

Tauri (Rust)

前端

React, TypeScript, Tailwind CSS

状态管理

Zustand, React Query

后端

FastAPI (Python)

语音模型

Qwen3-TTS (PyTorch 或 MLX)

转录

Whisper (PyTorch 或 MLX)

推理引擎

MLX (Apple Silicon) / PyTorch (Windows/Linux/Intel)

数据库

SQLite

音频处理

WaveSurfer.js, librosa

为什么选择这个技术栈?

Tauri 而非 Electron — 包体体积小 10 倍,本地性能更好,内存占用更低•FastAPI — 异步 Python,自动生成 OpenAPI Schema•类型安全的端到端 — 基于 OpenAPI 规范生成 TypeScript 客户端

开发

详细的设置和贡献指南请参见 CONTRIBUTING.md[3]。

运行 make help 以查看所有可用的命令,包括设置、开发、构建和测试相关的操作。

快速开始

使用 Makefile(Unix/macOS/Linux):
代码语言:javascript
复制
# 克隆仓库
git clone https://github.com/voicebox-sh/voicebox.git
cd voicebox

# 设置环境
make setup

# 开始开发
make dev
手动设置(适用于所有平台):
代码语言:javascript
复制
# 克隆仓库
git clone https://github.com/voicebox-sh/voicebox.git
cd voicebox

# 安装依赖
bun install

# 安装 Python 依赖
cd backend && pip install -r requirements.txt && cd ..

# 开始开发
bun run dev
前置条件

•Bun[4]•Rust[5]•Python 3.11 及以上版本[6]

性能

Apple Silicon (M1/M2/M3): 使用 MLX 后端,结合原生 Metal 加速,推理速度提高 4-5 倍•Windows/Linux/Intel Mac: 使用 PyTorch 后端(推荐使用 CUDA GPU,支持 CPU 但速度较慢)

代码语言:javascript
复制
https://github.com/jamiepine/voicebox?tab=readme-ov-file

References

[1] voicebox.sh • 下载 • 功能 • API • 路线图:https://voicebox.sh [2]Voicebox 演示视频:https://voicebox.sh [3]CONTRIBUTING.md:v [4]Bun:https://bun.sh/ [5]Rust:https://rustup.rs/ [6]Python 3.11 及以上版本: https://www.python.org/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 山行AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是 Voicebox?
  • 下载
  • 功能
    • 基于 Qwen3-TTS 的语音克隆
    • 语音档案管理
    • 语音生成
    • 故事编辑器
    • 录音与转录
    • 生成历史
    • 灵活部署
  • API
    • 用例:
  • 技术栈
    • 为什么选择这个技术栈?
  • 开发
    • 快速开始
      • 使用 Makefile(Unix/macOS/Linux):
      • 手动设置(适用于所有平台):
      • 前置条件
      • 性能
    • References
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档