我正在使用CRFSuite ( python-crfsuite实现)构建一个命名实体提取器,类似于关于http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb的教程训练输入是一个单词序列,每个单词都有许多特性。
问题是,对于我的特定用例,我并不总是拥有我试图识别的实体的功能。我希望CRF模型能够根据周围单词的特征来识别实体。然而,当我简单地输入一个空的dict {}作为单词的特征时,命名的实体永远不会被正确地分类。
我想知道是否有一个功能或标准方法来处理这种情况,在训练模型后,一个人并不总是拥有所有项目的功能。
发布于 2015-07-13 22:49:08
在某些情况下,为缺少的特征(如"-“或"+”)分配固定值可能很有用。
https://stackoverflow.com/questions/30347369
复制相似问题