文章/答案/技术大牛

发布

社区首页 >问答首页 >命名实体消歧需要多少个例子？

问命名实体消歧需要多少个例子？
EN

Data Science用户

提问于 2018-05-12 22:30:11

回答 2查看 1.3K关注 0票数 4

如果我想为简历构建一个命名实体链接系统，使用职业和技能的本体，说明我需要多少批注？本体有大约20,000个实体。

作为一个下限，我猜每个实体需要大约10个示例，也许需要3个不同的注释器来标记每一个提到的so ~600 K注释。这有意义吗？

nlp

named-entity-recognition

回答 2

Data Science用户

发布于 2018-05-16 00:46:40

这取决于数据集中的信号到噪声。执行命名实体消歧的数据量将取决于职业和技能的tf-以色列国防军得分，很少的职业和技能将需要较少的数据来构建性能模型。

例如，那句话“我是个厨师，能做好多项任务”。“厨师”是一种职业，“多任务”是一种相关技能。在一个类似的句子中，“我边做饭边做多项任务”。“厨师”不再是一种职业，“多任务”不再是一种相关技能。然而，“饱和潜水员”这一短语比“烹饪”要少得多，因此，建立一个识别职业和找到相关技能的模型要容易得多。

注释器的性能更容易衡量。科恩卡帕是判断等级间可靠性的一种常用方法。同样，所需评分员的数量取决于他们对这项任务的一致意见。如果任务执行简单，则评分员的数量和每个评等者的项目数都会减少。最好对系统进行基准测试，然后决定需要多少数据才能提高基准分数。

从文本自动创建本体的一种方法是TextRank算法。

票数 1

Data Science用户

发布于 2018-05-18 15:46:25

您可以描述命名实体识别 (NER)的一个变体。您有令牌的标签/类别。给定一个语料库(简历)，您希望一个新标签者将标记分类为是否属于其中一个标签。

您需要创建一个训练集的地面真相/“黄金”标签的标记和标签。由于您只处理名词，您可以运行一个标准的词性部分(POS)标签，然后只自定义标记名词短语。

最好采用主动学习方法。主动学习使训练集成为整个机器学习管道的一部分，从而大大减少了注释的数量。"基于深度主动学习的命名实体识别“是目前最先进的。

一旦你有了一组标签，你就可以训练新的分类器了。常用的选项是斯坦福命名实体识别器 (NER)和spaCy NER。斯坦福核心NLP的一个详细示例可以找到这里。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/31584

复制

相似问题

问命名实体消歧需要多少个例子？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问命名实体消歧需要多少个例子？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问命名实体消歧需要多少个例子？
EN