Kitten TTS V0.8：25MB实现云端级语音合成质量

文章来源：企鹅号 - AI可可AI生活

开源语音合成领域迎来重要突破。Kitten ML发布的V0.8版本推出了三个极致轻量的TTS模型：80M、40M和14M参数版本，全部采用Apache 2.0开源协议。最小的Nano模型仅25MB，却能在纯CPU环境下流畅运行。

这个尺寸意味着什么？传统云端TTS服务动辄数百MB，而Kitten将高质量语音合成装进了一个表情包的大小。这不是性能妥协的产物，80M版本的表现力甚至可以媲美商业级服务。

八种预设音色横跨男女声，表达力充沛。当前版本专注英语支持，多语言版本已在路线图中。更关键的是，它彻底改变了语音合成的部署范式——无需GPU，无需API调用，无需网络连接。你可以把它塞进树莓派，塞进智能音箱，塞进任何算力受限的边缘设备。

相比V0.1，新版本的质量提升源于训练管线的重构和10倍规模的数据集。有开发者已在300人同时在线的游戏服务器中实测，Nano模型能实时为聊天文本生成语音，内存占用远低于竞品方案。

技术细节值得玩味：模型基于ONNX runtime，避免了PyTorch的臃肿依赖。14M版本在AMD 5900X上能达到15倍实时速度，即便量化到int8仍保持近3倍实时性能。这种效率让流式响应成为可能——合成第一个句子的延迟几乎察觉不到。

社区反馈指出了一些环境兼容问题，特别是Python 3.13的依赖冲突。开发团队正在积极修复，并计划清理冗余依赖。有用户期待声音克隆功能，也有人希望看到Firefox扩展版本，用于替代那些隐私堪忧的在线朗读工具。

这个项目的野心不止于做“又一个小模型”。当语音合成的门槛降到25MB，语音界面不再是大厂专属。每个智能设备、每个信息亭、每个物联网节点都能拥有自然的语音表达能力，且完全在本地完成。隐私敏感场景、离线环境、实时交互——这些曾经需要权衡的需求，现在可以同时满足。

真正的挑战在于后续迭代。要在保持尺寸优势的同时逼近Qwen-3-TTS或ElevenLabs的质量，需要在模型架构和训练策略上持续创新。但从V0.1到V0.8的进化速度看，这个目标并非遥不可及。

GitHub：github.com/KittenML/KittenTTS

相关快讯