我正在做一个项目,在这个项目中,我需要使用维特比算法对句子列表进行词性标注。对于我的训练数据,我有已经由单词标记的句子,我认为我需要解析这些句子并将其存储在某种数据结构中。然后我有一个测试数据,其中也包含每个单词都被标记的句子。
我对如何处理这个问题感到有点困惑。我想问题的部分原因是我认为我没有完全理解维特比算法的要点。我是否应该使用Viterbi算法来标记我的测试数据,并将结果与实际数据进行比较?什么数据结构最能做到这一点并表示一个句子?
任何帮助都将不胜感激。
发布于 2017-05-10 05:05:55
维特比算法不是用来标记你的数据的。您应该手动(或由最先进的解析器半自动地)标记数据以进行训练。
Viterbi用于计算到节点的最佳路径,并找到到具有最低负对数概率的每个节点的路径。
HMM (Viterbi)词性标记器的Python实现:https://github.com/zachguo/HMM-Trigram-Tagger/blob/master/HMM.py
https://stackoverflow.com/questions/22058599
复制相似问题