在尝试实现一个特定说话人的语音识别系统时,我遇到了一些问题。当采用说话人15分钟语音的声学模型时,错误率太高(从6-10个单词中识别出正确的1个单词)。我所做的: 1.我已经将阿拉伯语单词转录成俄语,并将它们放入字典中。2.我已经尝试了ru4sphinx项目的旧模型msu_ru_zero.cd_cont_2000和cmusphinx-ru-5.2的新模型(目前最新的俄语声学模型)。3.我使用了我从自己研究领域的文本中制作的词典和语言模型。在utf-8中有将近200MB的俄语文本。但只有一小部分阿拉伯语词汇在这本词典里。
只有很少的(40个中的4个)音频音轨改编失败,“align audio to transcript",其他的都没有错误。此外,在bw命令使用之后的报告中,有220个感应器不在自适应音轨中。
我怎样才能降低这种混合语言的错误率呢?或者我需要从头开始为这个1扬声器创建声学模型?我根本不需要抄写阿拉伯语,只需要俄语,如果阿拉伯语将默认为一些常见的术语(如-unk-),它也会很好。
发布于 2017-01-13 19:26:18
我发现我的字典有问题。这是因为text2wfreq <lmbase.txt | wfreq2vocab命令。在我使用带有默认参数的wfreq2vocab之前,我的字典被截断为最频繁的20,000个单词。在我的起始词汇表中,有超过20万个单词。wfreq2vocab有-top参数,所以-top 400000适用于我(它不过滤单词,它现在只是创建词汇表)
第二,现在我使用的是地图自适应而不是mllr。
用30分钟的改编音频,它显示了50-75%的正确单词。
https://stackoverflow.com/questions/41568772
复制相似问题