首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >说话人相关的语音识别系统需要多少训练数据?

说话人相关的语音识别系统需要多少训练数据?
EN

Stack Overflow用户
提问于 2017-04-02 21:35:06
回答 2查看 1K关注 0票数 2

为了实现高精度(< 15%的WER)说话人相关ASR系统,需要从说话人那里获得多少训练数据?

另外,依赖于说话人的模型通常会有一个更大的音频语料库(来自许多说话人)来补充吗?还是他们只使用来自单个扬声器的数据?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-04-03 07:04:36

为了实现高精度(< 15%的WER)说话人相关ASR系统,需要从说话人那里获得多少训练数据?

30-40个小时。

另外,依赖于说话人的模型通常会有一个更大的音频语料库(来自许多说话人)来补充吗?

有时候。

还是他们只使用来自单个扬声器的数据?

可以从1到2小时的说话人数据和来自其他说话人的300+小时数据构建依赖于说话人的说话人。与收集单个说话人数据相比,这条路径不那么简单。

票数 0
EN

Stack Overflow用户

发布于 2017-07-19 16:10:13

答案因您所使用的库而异。对于嵌入式语音控制系统,我使用了Sensory的TrulyHandsFree SDK和扬声器特定的训练。他们的过程调整识别网络,从一个说话人独立的模型开始,并建立在此基础上。要进行合理准确的说话人识别,需要512到1024个说话人特定的训练样本,因此需要45分钟到3小时的数据。

但是,如果你不需要说话人识别,默认模型的准确率超过85%,假设语法很小,不需要任何说话人特定的训练。我所做的所有工作都是使用相对较小的语法,所以说话人识别是我们进行说话人特定训练的唯一原因。

如果你需要任何不受限制的ASR,那就超出了我的练习范围。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43173785

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档