我是使用HTK的新手。我想将HMM用于非语音数据,但我还没有找到任何好的示例,大多数示例都是用于语音的。
我知道我必须将数据的特征转换为HTK格式。
我不知道的是如何配置HTK,因为它使用字典和语法,而我的数据不需要这些东西,因为它不是语音。
有人对此有很好的例子或建议吗?
发布于 2014-11-15 07:42:18
我最近研究了基于HTK的光学字符识别,发现这篇ICFHR教程非常有帮助(http://transcriptorium.eu/~tutorialICFHR/)。
唯一的本质区别是您的功能,因此,对于所有配置,参考HTK书籍就足够了。当然,您需要对一些配置和HMM定义进行一些修改,但是GMM-HMM的思想永远不会改变。例如,下面是ASR和OCR之间的映射表。
ASR: phone | tri-phone | lexicon [ word : decomposed_phone_sequence ]
OCR: char | tri_char | lexicon [ word : decomposed_char_sequence ]我的建议是通读HTK这本书,并尝试一些演示代码。当您第一次使用HTK时,您可能会感到困惑,尤其是它的命令行参数,但是一个月后您就会觉得很舒服了。
https://stackoverflow.com/questions/25191626
复制相似问题