首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NER识别自定义实体

NER识别自定义实体
EN

Stack Overflow用户
提问于 2017-08-07 07:03:33
回答 1查看 394关注 0票数 0

我有一个要求从给定的文本中检测公司名称。我训练过CRFClassifier,我的训练数据和公报数据都是。在对分类器进行训练后,当我使用测试数据来识别公司时,它没有正确地进行检测。如果我给出的公司名称是培训数据的一部分,它能够识别,如果我给出任何作为公报文件一部分的公司名称,它就无法识别这些实体。你能帮我吗,我怎样才能继续朝着正确的方向去识别实体。

我使用的属性文件如下所示

trainFile=培训-data.tsv

serializeTo=custom-classification-model.ser.gz

map=word=0,answer=1

useClassFeature=true

useWord=true

useNGrams=true

noMidNGrams=true

maxNGramLeng=6

usePrev=true

useNext=true

useSequences=true

usePrevSequences=true

maxLeft=1

useTypeSeqs=true

useTypeSeqs2=true

useTypeySequences=true

wordShape=chris2useLC

useDisjunctive=true

useGazettes=true

gazette=gazette.txt

cleanGazette=true

样本训练数据文件

华堡公司

平卡斯公司

有O

商定O

致O

获取O

北O

卡罗莱纳O

  • O

基O

服务O

Gazzette文件数据文件

ACON公司

投资公司

LLS公司

邮政公司

橡木公司

能源公司

资本公司

美林公司

林奇公司

国际公司

Aion公司

直接公司

新加坡公司

EN

回答 1

Stack Overflow用户

发布于 2017-08-16 07:25:02

您的公报文件格式不正确。

一个示例条目应该如下所示:

CLASS1 this is an example

在NER页面上有一个更详细的答案:

https://nlp.stanford.edu/software/crf-faq.html#gazette

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45541095

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档