首页
学习
活动
专区
圈层
工具
发布

Kitten TTS V0.8:25MB实现云端级语音合成质量

开源语音合成领域迎来重要突破。Kitten ML发布的V0.8版本推出了三个极致轻量的TTS模型:80M、40M和14M参数版本,全部采用Apache 2.0开源协议。最小的Nano模型仅25MB,却能在纯CPU环境下流畅运行。

这个尺寸意味着什么?传统云端TTS服务动辄数百MB,而Kitten将高质量语音合成装进了一个表情包的大小。这不是性能妥协的产物,80M版本的表现力甚至可以媲美商业级服务。

八种预设音色横跨男女声,表达力充沛。当前版本专注英语支持,多语言版本已在路线图中。更关键的是,它彻底改变了语音合成的部署范式——无需GPU,无需API调用,无需网络连接。你可以把它塞进树莓派,塞进智能音箱,塞进任何算力受限的边缘设备。

相比V0.1,新版本的质量提升源于训练管线的重构和10倍规模的数据集。有开发者已在300人同时在线的游戏服务器中实测,Nano模型能实时为聊天文本生成语音,内存占用远低于竞品方案。

技术细节值得玩味:模型基于ONNX runtime,避免了PyTorch的臃肿依赖。14M版本在AMD 5900X上能达到15倍实时速度,即便量化到int8仍保持近3倍实时性能。这种效率让流式响应成为可能——合成第一个句子的延迟几乎察觉不到。

社区反馈指出了一些环境兼容问题,特别是Python 3.13的依赖冲突。开发团队正在积极修复,并计划清理冗余依赖。有用户期待声音克隆功能,也有人希望看到Firefox扩展版本,用于替代那些隐私堪忧的在线朗读工具。

这个项目的野心不止于做“又一个小模型”。当语音合成的门槛降到25MB,语音界面不再是大厂专属。每个智能设备、每个信息亭、每个物联网节点都能拥有自然的语音表达能力,且完全在本地完成。隐私敏感场景、离线环境、实时交互——这些曾经需要权衡的需求,现在可以同时满足。

真正的挑战在于后续迭代。要在保持尺寸优势的同时逼近Qwen-3-TTS或ElevenLabs的质量,需要在模型架构和训练策略上持续创新。但从V0.1到V0.8的进化速度看,这个目标并非遥不可及。

GitHub:github.com/KittenML/KittenTTS

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnAKavEvd8Kf-8aMzqR-kTxQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券