首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在运行命名实体识别后从句子中提取语义?

如何在运行命名实体识别后从句子中提取语义?
EN

Stack Overflow用户
提问于 2014-05-22 04:56:07
回答 3查看 1.8K关注 0票数 0

首先:关于如何修改标题有什么建议吗?

我正在使用自己的命名实体识别算法从纯文本中解析数据。具体地说,我正在尝试提取律师实践领域。我看到的一个常见的句子结构是:

1) Neil专注于就业、税收和版权诉讼。

2) Neil专注于一般公司事务,包括证券、商业组织、合同准备和知识产权保护。

我的实体提取在查找关键字方面做得很好,例如,我从第一句话得到的输出可能如下所示:

Neil专注于(就业)、(税务)和(版权诉讼)。

然而,这对我并没有真正的帮助。更有帮助的是,如果我得到的输出看起来更像这样:

Neil专注于(雇佣诉讼)、(税务诉讼)和(版权诉讼)。

有没有办法使用现有的python框架来实现这个目标,比如nltk (在我的algo提取练习区域之后)我可以使用ntlk来提取我的“练习区域”为了获得更完整的图像而修改的其他单词吗?

EN

回答 3

Stack Overflow用户

发布于 2014-05-26 05:02:57

Named entity recognition (NER)系统通常使用基于语法的规则或统计语言模型。不过,您在这里所描述的内容似乎只基于关键字。

通常,就像大多数复杂的NLP任务一样,NER系统应该在特定于领域的数据上进行训练,以便它们在以前未见过的(测试)数据上表现良好。你将需要足够的机器学习知识才能走上这条路。

在“普通”语言中,如果您想提取单词或短语并将其分类到您定义的类中(例如诉讼),那么在外部本体中使用类别标签通常是有意义的。一个例子可以是:

  • 您想要提取与体育相关的单词和短语。

这样的分类(即检测一个单词是否确实与体育相关)不是一个“一般的”-enough问题。这意味着你将找不到现成的系统来解决这个问题(例如,NLTK库中的算法)。但是,您可以使用像Wikipedia这样的本体,并利用那里可用的类别标签。

例如,如果你在维基百科上搜索“足球”,它有一个类别标签“

  • ”,而它又在“体育”之下,你可以检查这一点。

请注意,维基百科的类别标签形成了一个有向图。如果你构建了一个利用这种本体的类别结构的系统,你应该能够在你认为合适的时候对文本中的术语进行分类。此外,你甚至可以控制分类的粒度(例如,你只想要“运动”,还是“个人运动”和“团队运动”)。

我已经建立了这样一个系统,用于对与计算机科学相关的术语进行分类,它工作得非常好。以类似方式工作的最接近的免费系统是由伊利诺伊大学厄巴纳香槟分校的认知计算小组建造的Wikifier

警告:您可能需要调整一个简单的基于类别的代码来满足您的需求。例如,维基百科上没有“诉讼”的页面。相反,它会将你重定向到一个标题为“诉讼”的页面。这些情况需要单独处理。

最后说明:这个解决方案确实不在自然语言处理领域,但我过去的经验表明,对于某些领域,这种基于本体的方法真的很好用。此外,我在回答中使用了"sports“的例子,因为我对法律术语一无所知。但我希望我的例子能帮助您理解潜在的过程。

票数 4
EN

Stack Overflow用户

发布于 2014-05-23 04:23:30

我不认为你的“算法”是在做实体识别...但是,如果将您提出的问题延伸很多,您想要做的事情看起来像是包含省略号的协调结构中的共指解析。一点也不容易:首先在谷歌上搜索一些语言学和计算语言学的相关文献。我使用下面领域中的标准术语。

实际上,您可以从分配最近的先行词开始(这是英语中最常用的方法)。使用您的示例:

  • 首先从实体列表中提取句子
  • 中的所有“实体”,识别之前的候选(“诉讼”等)。这是一项非常困难的任务,涉及许多不同的问题……如果你事先知道你感兴趣的“实体”,你可以避免它。
  • 最后,你把每个回指/回指分配(解析)给最近的先行词。
票数 1
EN

Stack Overflow用户

发布于 2016-04-29 05:50:34

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23793628

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档