首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >命名实体消歧需要多少个例子?

命名实体消歧需要多少个例子?
EN

Data Science用户
提问于 2018-05-12 22:30:11
回答 2查看 1.3K关注 0票数 4

如果我想为简历构建一个命名实体链接系统,使用职业和技能的本体,说明我需要多少批注?本体有大约20,000个实体。

作为一个下限,我猜每个实体需要大约10个示例,也许需要3个不同的注释器来标记每一个提到的so ~600 K注释。这有意义吗?

EN

回答 2

Data Science用户

发布于 2018-05-16 00:46:40

这取决于数据集中的信号到噪声。执行命名实体消歧的数据量将取决于职业和技能的tf-以色列国防军得分,很少的职业和技能将需要较少的数据来构建性能模型。

例如,那句话“我是个厨师,能做好多项任务”。“厨师”是一种职业,“多任务”是一种相关技能。在一个类似的句子中,“我边做饭边做多项任务”。“厨师”不再是一种职业,“多任务”不再是一种相关技能。然而,“饱和潜水员”这一短语比“烹饪”要少得多,因此,建立一个识别职业和找到相关技能的模型要容易得多。

注释器的性能更容易衡量。科恩卡帕是判断等级间可靠性的一种常用方法。同样,所需评分员的数量取决于他们对这项任务的一致意见。如果任务执行简单,则评分员的数量和每个评等者的项目数都会减少。最好对系统进行基准测试,然后决定需要多少数据才能提高基准分数。

从文本自动创建本体的一种方法是TextRank算法。

票数 1
EN

Data Science用户

发布于 2018-05-18 15:46:25

您可以描述命名实体识别 (NER)的一个变体。您有令牌的标签/类别。给定一个语料库(简历),您希望一个新标签者将标记分类为是否属于其中一个标签。

您需要创建一个训练集的地面真相/“黄金”标签的标记和标签。由于您只处理名词,您可以运行一个标准的词性部分(POS)标签,然后只自定义标记名词短语。

最好采用主动学习方法。主动学习使训练集成为整个机器学习管道的一部分,从而大大减少了注释的数量。"基于深度主动学习的命名实体识别“是目前最先进的。

一旦你有了一组标签,你就可以训练新的分类器了。常用的选项是斯坦福命名实体识别器 (NER)和spaCy NER。斯坦福核心NLP的一个详细示例可以找到这里

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/31584

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档