我正在开发一个识别音素的项目,以便能够识别某人是说“是”还是“不是”。
到目前为止,在这个项目中,我已经使用过零过路来识别这个人在说什么,这真的很好,而且看起来很简单,可以理解。然而,该项目需要一些增强,必须使用隐马尔可夫模型进行开发。
我的问题是:
我想开发一个隐马尔可夫模型,而不删除我已经完成的工作。也就是说,我把那些不值得考虑的数据去掉,计算过零的次数以及积木的总和。
我不明白为了能够识别这些音素,我需要哪些数据来训练HMM。例如。
关于零过境点,我认为:
是的-零过境点开始低,然后值增加
不-零-起点低,然后不随值增加。
我可以训练我的HMM算法使它解释这些值吗?
或者,有人能提出一种方法,我可以训练HMM来识别输入到样本中的单词吗?
希望有人能帮忙:)!
发布于 2012-11-17 07:49:25
我可以训练我的HMM算法使它解释这些值吗?
是的,绝对
或者,有人能提出一种方法,我可以训练HMM来识别输入到样本中的单词吗?
您只需将零过关率与MFCC特性(如第14特性)放在一起,并使用任何标准的HMM训练工具包(如CMUSphinx或HTK )来训练HMM并使用它进行解码。有关更多信息,请参阅
http://cmusphinx.sourceforge.net/wiki/mfcformat
或
http://speech-research.com/htkSearch/index.php?ID=297039
http://speech-research.com/SRTxt2User/index.html
发布于 2012-11-16 22:11:32
自动音素分割是一个棘手的问题,所以我将提供一些我喜欢的资源,涉及到这个主题的各个层次的细节。
本文:http://www.seas.upenn.edu/~jan/Files/Iscas99Speech.pdf
本文:no2/8.2.1.languageidentification.pdf
这个资源非常好:http://research.microsoft.com/pubs/118769/Book-Chap-HuangDeng2010.pdf
这本书为音素识别提供了一些很好的例子:http://www.amazon.com/Speech-Recognition-Theory-C-Implementation/dp/0471977306/
这本书也很好:http://www.amazon.com/Statistical-Methods-Recognition-Language-Communication/dp/0262100665/
这些书很贵,但它们值得(在我看来)
https://stackoverflow.com/questions/13418472
复制相似问题