文章/答案/技术大牛

发布

社区首页 >问答首页 >斯坦福NER工具包-小写实体识别

问斯坦福NER工具包-小写实体识别
EN

Stack Overflow用户

提问于 2010-11-21 07:39:13

回答 5查看 4.2K关注 0票数 6

我是NLP的新手，正在尝试弄清楚命名实体识别器如何注释命名实体。我正在尝试使用斯坦福NER工具包。当我在标准的更正式的数据集上使用NER时，NER会正确地注释实体，其中遵循所有命名约定来表示命名实体。然而，当我使用非正式数据集运行NER时，例如twitter，其中命名实体可能没有像应该的那样大写，NER不注释实体。我使用的分类器是一个3-CRF序列化分类器。有没有人能告诉我如何让NER也能识别小写实体？任何关于如何破解NER以及在哪里进行改进的有用建议都是非常感谢的。提前感谢你的帮助。

stanford-nlp

named-entity-recognition

java

回答 5

Stack Overflow用户

发布于 2010-12-15 08:09:43

恐怕没有一种简单的方法可以让我们分发的经过训练的模型在运行时忽略案例信息。所以，是的，他们通常只标注大写的名字。可以训练一个无大小写的模型，这将合理地工作(但在大小写文本上不是那么好，因为大小写在英语中是一个很大的线索(但不是在德语、汉语、阿拉伯语等中)。

票数 5

Stack Overflow用户

发布于 2014-12-12 22:30:40

我知道这是一个古老的帖子，但希望它能帮助一些人。正如christopher manning回答的那样，检测到小写的方法是用english.muc.7class.caseless.distsim.crf.ser.gz替换english.muc.7class.distsim.crf.ser.gz，当你解压核心的nlp无大小写jar文件时，你可以得到它。

例如，在我的python文件中，除了更改为新文件之外，所有内容都保持不变，并且它工作得很好(好吧，大多数情况下)。

st = NERTagger('/Users/username/stanford-corenlp-python/stanford-ner-2014-10-26/classifiers/english.muc.7class.caseless.distsim.crf.ser.gz', '/Users/username/stanford-corenlp-python/stanford-ner-2014-10-26/stanford-ner.jar')

票数 5

Stack Overflow用户

发布于 2012-06-07 15:42:58

以及其他人的建议。如果你使用的是基于特征的分类器，我肯定会在人名中添加100-200个最常见的3-4个字母的子串，或者在一个公认的特征下创建一个地名词典。有一些特定的模式肯定会出现在个人名字中，而不是在其他类型的单词中经常出现，比如“eli”。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4235619

复制

相似问题

问斯坦福NER工具包-小写实体识别
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问斯坦福NER工具包-小写实体识别EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问斯坦福NER工具包-小写实体识别
EN