首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >语言模型与Sphinx4

语言模型与Sphinx4
EN

Stack Overflow用户
提问于 2014-08-25 21:32:27
回答 1查看 326关注 0票数 1

我刚接触过狮身人面像,我正试图编写一个程序来识别音频文件中的一个单词,其中只包含一个口语单词,然后对其信心进行评级。对于这样的项目,语言模型似乎是不必要的,因为我只想识别一个单词,但似乎Sphinx需要一个语言模型来做任何事情。这样的事情有可能吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-25 21:48:44

不幸的是,Sphinx (和任何其他ASR系统)都需要一个语言模型来完成任何事情。其原因是语言模型被用于语音viterbi解码,并被要求为许多文本的可能性分配一个分数。

我假设您正在使用的音频文件可以包含一组可能的单词(因为我不确定如果音频文件都包含相同的单词..)会有什么意义。在这种情况下,您可以使用语法而不是统计语言模型。一般来说,语法可以很好地处理小词汇表任务。

Sphinx4 JSGFGrammar文档

要获得可信度值,请参阅类ConfidenceScorer的文档,它可以从识别器中获得结果。

ConfidenceScorer文档的示例

如果音频文件可以是许多未知单词中的一个,并且您只想识别您所关心的单个单词(例如,您不知道音频文件中的其他单词是什么,或者它是一个足够大的集合,您不希望指定语法中的所有单词),那么您将面临一项相当困难的任务。老实说,我在语音识别方面做过工作,我不太确定怎么做.您可以尝试指定一组具有不同语音特征(即不同音节长度、不同类型的声音)的其他单词,也许它会很好地工作。如果是这样的话,让我知道,我可以想出一些其他可能的解决方案,但我的猜测是,你的任务是识别一个小集合中的一个单词。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25494694

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档