我是CRF的新手,我想用CRFsuite来标记单词。我阅读了CRFsuite's manual并理解了训练数据的格式,但是如果我想添加一些带有"near words“标签的特性,那么训练数据文件是什么样子的呢?
我用谷歌搜索了一下,但我没有发现任何关于这个问题的信息。
发布于 2014-03-27 22:43:32
简而言之,就是提供单词w[-1]=drank的属性(如表示前一个单词的NOUN)及其标签( CRF ),CRFsuite生成组成CRF模型的实际指示器函数(包括一个指示前一个单词的标签为VERB的特性)。它知道这样做是因为它使用了“具有二元特性的一阶马尔可夫CRF”,正如您链接到的手册页面中所述。
一个重要的区别(文档可能会更精确)是“特征”和“属性”之间的区别,其中特征是模型中表示(属性,标签)或(标签,标签)对的链接。
因此,在您的示例中,w[-1]=drank是您提供的属性。w[-1]=drank, NOUN的组合是状态特征,标签VERB --> NOUN之间的转换是转换特征,这两者都是由CRFsuite生成的。
我推荐tutorial,它对此进行了更详细的讨论。
https://stackoverflow.com/questions/22218749
复制相似问题