问从头创建声学模型或调整现有声学模型
EN

Stack Overflow用户

提问于 2017-01-10 20:21:44

回答 1查看 432关注 0票数 0

在尝试实现一个特定说话人的语音识别系统时，我遇到了一些问题。当采用说话人15分钟语音的声学模型时，错误率太高(从6-10个单词中识别出正确的1个单词)。我所做的: 1.我已经将阿拉伯语单词转录成俄语，并将它们放入字典中。2.我已经尝试了ru4sphinx项目的旧模型msu_ru_zero.cd_cont_2000和cmusphinx-ru-5.2的新模型(目前最新的俄语声学模型)。3.我使用了我从自己研究领域的文本中制作的词典和语言模型。在utf-8中有将近200MB的俄语文本。但只有一小部分阿拉伯语词汇在这本词典里。

只有很少的(40个中的4个)音频音轨改编失败，“align audio to transcript"，其他的都没有错误。此外，在bw命令使用之后的报告中，有220个感应器不在自适应音轨中。

我怎样才能降低这种混合语言的错误率呢？或者我需要从头开始为这个1扬声器创建声学模型？我根本不需要抄写阿拉伯语，只需要俄语，如果阿拉伯语将默认为一些常见的术语(如-unk-)，它也会很好。

pocketsphinx

speech-recognition

cmusphinx

回答 1

Stack Overflow用户

发布于 2017-01-13 19:26:18

我发现我的字典有问题。这是因为text2wfreq <lmbase.txt | wfreq2vocab命令。在我使用带有默认参数的wfreq2vocab之前，我的字典被截断为最频繁的20,000个单词。在我的起始词汇表中，有超过20万个单词。wfreq2vocab有-top参数，所以-top 400000适用于我(它不过滤单词，它现在只是创建词汇表)

第二，现在我使用的是地图自适应而不是mllr。

用30分钟的改编音频，它显示了50-75%的正确单词。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41568772

复制

相似问题

问从头创建声学模型或调整现有声学模型
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从头创建声学模型或调整现有声学模型EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从头创建声学模型或调整现有声学模型
EN