我有一个要求从给定的文本中检测公司名称。我训练过CRFClassifier,我的训练数据和公报数据都是。在对分类器进行训练后,当我使用测试数据来识别公司时,它没有正确地进行检测。如果我给出的公司名称是培训数据的一部分,它能够识别,如果我给出任何作为公报文件一部分的公司名称,它就无法识别这些实体。你能帮我吗,我怎样才能继续朝着正确的方向去识别实体。
我使用的属性文件如下所示
trainFile=培训-data.tsv
serializeTo=custom-classification-model.ser.gz
map=word=0,answer=1
useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=1
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useDisjunctive=true
useGazettes=true
gazette=gazette.txt
cleanGazette=true
样本训练数据文件
华堡公司
平卡斯公司
有O
商定O
致O
获取O
北O
卡罗莱纳O
基O
服务O
Gazzette文件数据文件
ACON公司
投资公司
LLS公司
邮政公司
橡木公司
能源公司
资本公司
美林公司
林奇公司
国际公司
Aion公司
直接公司
新加坡公司
发布于 2017-08-16 07:25:02
您的公报文件格式不正确。
一个示例条目应该如下所示:
CLASS1 this is an example
在NER页面上有一个更详细的答案:
https://stackoverflow.com/questions/45541095
复制相似问题