我想实现一个经典的马尔可夫模型问题:训练MM学习英语文本模式,并使用它来检测英语文本与随机字符串。
我决定使用hmmlearn,这样我就不用自己写了。然而,我对如何训练它感到困惑。它似乎需要HMM中的组件数量,但对于英语来说,什么是合理的数量?另外,我不能做一个简单的高阶马尔可夫模型而不是隐藏模型吗?据推测,有趣的属性是ngram的模式,而不是隐藏状态。
发布于 2017-04-12 04:25:30
hmmlearn是为HMM的无监督学习而设计的,而您的问题显然是有监督的:给定英语和随机字符串的示例,学习区分这两者。此外,正如您已经正确指出的,隐藏状态的概念很难为文本数据定义,因此对于您的问题,纯彩信可能更合适。我认为你应该能够用少于100行的Python代码来实现它们。
https://stackoverflow.com/questions/43178966
复制相似问题