首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >斯坦福NER工具包-小写实体识别

斯坦福NER工具包-小写实体识别
EN

Stack Overflow用户
提问于 2010-11-21 07:39:13
回答 5查看 4.2K关注 0票数 6

我是NLP的新手,正在尝试弄清楚命名实体识别器如何注释命名实体。我正在尝试使用斯坦福NER工具包。当我在标准的更正式的数据集上使用NER时,NER会正确地注释实体,其中遵循所有命名约定来表示命名实体。然而,当我使用非正式数据集运行NER时,例如twitter,其中命名实体可能没有像应该的那样大写,NER不注释实体。我使用的分类器是一个3-CRF序列化分类器。有没有人能告诉我如何让NER也能识别小写实体?任何关于如何破解NER以及在哪里进行改进的有用建议都是非常感谢的。提前感谢你的帮助。

EN

回答 5

Stack Overflow用户

发布于 2010-12-15 08:09:43

恐怕没有一种简单的方法可以让我们分发的经过训练的模型在运行时忽略案例信息。所以,是的,他们通常只标注大写的名字。可以训练一个无大小写的模型,这将合理地工作(但在大小写文本上不是那么好,因为大小写在英语中是一个很大的线索(但不是在德语、汉语、阿拉伯语等中)。

票数 5
EN

Stack Overflow用户

发布于 2014-12-12 22:30:40

我知道这是一个古老的帖子,但希望它能帮助一些人。正如christopher manning回答的那样,检测到小写的方法是用english.muc.7class.caseless.distsim.crf.ser.gz替换english.muc.7class.distsim.crf.ser.gz,当你解压核心的nlp无大小写jar文件时,你可以得到它。

例如,在我的python文件中,除了更改为新文件之外,所有内容都保持不变,并且它工作得很好(好吧,大多数情况下)。

代码语言:javascript
复制
st = NERTagger('/Users/username/stanford-corenlp-python/stanford-ner-2014-10-26/classifiers/english.muc.7class.caseless.distsim.crf.ser.gz', '/Users/username/stanford-corenlp-python/stanford-ner-2014-10-26/stanford-ner.jar')
票数 5
EN

Stack Overflow用户

发布于 2012-06-07 15:42:58

以及其他人的建议。如果你使用的是基于特征的分类器,我肯定会在人名中添加100-200个最常见的3-4个字母的子串,或者在一个公认的特征下创建一个地名词典。有一些特定的模式肯定会出现在个人名字中,而不是在其他类型的单词中经常出现,比如“eli”。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4235619

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档