文章/答案/技术大牛

发布

社区首页 >问答首页 >说话人相关的语音识别系统需要多少训练数据？

问说话人相关的语音识别系统需要多少训练数据？
EN

Stack Overflow用户

提问于 2017-04-02 21:35:06

回答 2查看 1K关注 0票数 2

为了实现高精度(< 15%的WER)说话人相关ASR系统，需要从说话人那里获得多少训练数据？

另外，依赖于说话人的模型通常会有一个更大的音频语料库(来自许多说话人)来补充吗？还是他们只使用来自单个扬声器的数据？

speech-recognition

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-04-03 07:04:36

为了实现高精度(< 15%的WER)说话人相关ASR系统，需要从说话人那里获得多少训练数据？

30-40个小时。

另外，依赖于说话人的模型通常会有一个更大的音频语料库(来自许多说话人)来补充吗？

有时候。

还是他们只使用来自单个扬声器的数据？

可以从1到2小时的说话人数据和来自其他说话人的300+小时数据构建依赖于说话人的说话人。与收集单个说话人数据相比，这条路径不那么简单。

票数 0

Stack Overflow用户

发布于 2017-07-19 16:10:13

答案因您所使用的库而异。对于嵌入式语音控制系统，我使用了Sensory的TrulyHandsFree SDK和扬声器特定的训练。他们的过程调整识别网络，从一个说话人独立的模型开始，并建立在此基础上。要进行合理准确的说话人识别，需要512到1024个说话人特定的训练样本，因此需要45分钟到3小时的数据。

但是，如果你不需要说话人识别，默认模型的准确率超过85%，假设语法很小，不需要任何说话人特定的训练。我所做的所有工作都是使用相对较小的语法，所以说话人识别是我们进行说话人特定训练的唯一原因。

如果你需要任何不受限制的ASR，那就超出了我的练习范围。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43173785

复制

相似问题

问说话人相关的语音识别系统需要多少训练数据？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问说话人相关的语音识别系统需要多少训练数据？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问说话人相关的语音识别系统需要多少训练数据？
EN