为了实现高精度(< 15%的WER)说话人相关ASR系统,需要从说话人那里获得多少训练数据?
另外,依赖于说话人的模型通常会有一个更大的音频语料库(来自许多说话人)来补充吗?还是他们只使用来自单个扬声器的数据?
发布于 2017-04-03 07:04:36
为了实现高精度(< 15%的WER)说话人相关ASR系统,需要从说话人那里获得多少训练数据?
30-40个小时。
另外,依赖于说话人的模型通常会有一个更大的音频语料库(来自许多说话人)来补充吗?
有时候。
还是他们只使用来自单个扬声器的数据?
可以从1到2小时的说话人数据和来自其他说话人的300+小时数据构建依赖于说话人的说话人。与收集单个说话人数据相比,这条路径不那么简单。
发布于 2017-07-19 16:10:13
答案因您所使用的库而异。对于嵌入式语音控制系统,我使用了Sensory的TrulyHandsFree SDK和扬声器特定的训练。他们的过程调整识别网络,从一个说话人独立的模型开始,并建立在此基础上。要进行合理准确的说话人识别,需要512到1024个说话人特定的训练样本,因此需要45分钟到3小时的数据。
但是,如果你不需要说话人识别,默认模型的准确率超过85%,假设语法很小,不需要任何说话人特定的训练。我所做的所有工作都是使用相对较小的语法,所以说话人识别是我们进行说话人特定训练的唯一原因。
如果你需要任何不受限制的ASR,那就超出了我的练习范围。
https://stackoverflow.com/questions/43173785
复制相似问题