问如何过滤命名实体识别结果
EN

Data Science用户

提问于 2018-05-09 17:27:06

回答 1查看 278关注 0票数 4

我已经构建了一条管道，它最终输出了一堆(数千到数万或更多)命名实体。我想对那些命名实体进行聚合(例如，在我的语料库中提到一个特定的命名实体多少次)。但是，我遇到的一个问题是，尽管命名实体是同一个实体，但它们之间往往并不匹配。例如，命名实体的一个实例可能是"John博士“，而另一个实例可能是”John“，或者一个实例可能是"Google”，而另一个实例可能是"Google .“。这使得聚合变得非常困难。

为了处理这个问题，并将"John博士“设置为与”John“相同的实体，我正在考虑在我的命名实体之间进行单词匹配。也就是说，我会检查命名实体A是否与命名实体B有一个共同的词，以及它们是否将它们设置为同一个实体。这种做法显然存在严重缺陷。我将把"John“和"John”等同为同一个实体，尽管它们显然不是。但是，使用这种方法可能更糟糕的是，我可能会遇到相似链，其中"John Smith“和"Richard Smith”与"Richard Sporting .“链接在一起。与“谷歌公司”链接。等等等等。虽然我可能愿意允许由前一个问题引起的问题通过，但后者似乎是灾难性的。

在NLP社区中，是否有任何被接受的技术来处理这个问题？

nlp

named-entity-recognition

回答 1

Data Science用户

发布于 2019-01-09 07:26:59

对此，最高级(也是最复杂)的方法是某种弱监督的系统，如霍洛克林。这看起来很有希望，但并不容易。

谱的另一端是试探法，就像你提议的那样。如果您想使用您所描述的字符串距离方法，我将创建一些度量，为字符串编辑距离和具有匹配的单词提供点数。如果您可以将管道分成更小的步骤，也许您可以使用某种类型的主题分析，然后在知识图中查找两个相似的实体和该主题，并查看指向同一区域的点。

2018年的亚历克莎奖得主论文，甘洛克充满了聪明的启发，你可能会合适。

编辑:您还应该看看实体链接，这或多或少是您描述的问题。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/31448

复制

相似问题

问如何过滤命名实体识别结果
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何过滤命名实体识别结果EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何过滤命名实体识别结果
EN