首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从头创建声学模型或调整现有声学模型

从头创建声学模型或调整现有声学模型
EN

Stack Overflow用户
提问于 2017-01-10 20:21:44
回答 1查看 432关注 0票数 0

在尝试实现一个特定说话人的语音识别系统时,我遇到了一些问题。当采用说话人15分钟语音的声学模型时,错误率太高(从6-10个单词中识别出正确的1个单词)。我所做的: 1.我已经将阿拉伯语单词转录成俄语,并将它们放入字典中。2.我已经尝试了ru4sphinx项目的旧模型msu_ru_zero.cd_cont_2000和cmusphinx-ru-5.2的新模型(目前最新的俄语声学模型)。3.我使用了我从自己研究领域的文本中制作的词典和语言模型。在utf-8中有将近200MB的俄语文本。但只有一小部分阿拉伯语词汇在这本词典里。

只有很少的(40个中的4个)音频音轨改编失败,“align audio to transcript",其他的都没有错误。此外,在bw命令使用之后的报告中,有220个感应器不在自适应音轨中。

我怎样才能降低这种混合语言的错误率呢?或者我需要从头开始为这个1扬声器创建声学模型?我根本不需要抄写阿拉伯语,只需要俄语,如果阿拉伯语将默认为一些常见的术语(如-unk-),它也会很好。

EN

回答 1

Stack Overflow用户

发布于 2017-01-13 19:26:18

我发现我的字典有问题。这是因为text2wfreq <lmbase.txt | wfreq2vocab命令。在我使用带有默认参数的wfreq2vocab之前,我的字典被截断为最频繁的20,000个单词。在我的起始词汇表中,有超过20万个单词。wfreq2vocab-top参数,所以-top 400000适用于我(它不过滤单词,它现在只是创建词汇表)

第二,现在我使用的是地图自适应而不是mllr。

用30分钟的改编音频,它显示了50-75%的正确单词。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41568772

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档