如果我想为简历构建一个命名实体链接系统,使用职业和技能的本体,说明我需要多少批注?本体有大约20,000个实体。
作为一个下限,我猜每个实体需要大约10个示例,也许需要3个不同的注释器来标记每一个提到的so ~600 K注释。这有意义吗?
发布于 2018-05-16 00:46:40
这取决于数据集中的信号到噪声。执行命名实体消歧的数据量将取决于职业和技能的tf-以色列国防军得分,很少的职业和技能将需要较少的数据来构建性能模型。
例如,那句话“我是个厨师,能做好多项任务”。“厨师”是一种职业,“多任务”是一种相关技能。在一个类似的句子中,“我边做饭边做多项任务”。“厨师”不再是一种职业,“多任务”不再是一种相关技能。然而,“饱和潜水员”这一短语比“烹饪”要少得多,因此,建立一个识别职业和找到相关技能的模型要容易得多。
注释器的性能更容易衡量。科恩卡帕是判断等级间可靠性的一种常用方法。同样,所需评分员的数量取决于他们对这项任务的一致意见。如果任务执行简单,则评分员的数量和每个评等者的项目数都会减少。最好对系统进行基准测试,然后决定需要多少数据才能提高基准分数。
从文本自动创建本体的一种方法是TextRank算法。
发布于 2018-05-18 15:46:25
您可以描述命名实体识别 (NER)的一个变体。您有令牌的标签/类别。给定一个语料库(简历),您希望一个新标签者将标记分类为是否属于其中一个标签。
您需要创建一个训练集的地面真相/“黄金”标签的标记和标签。由于您只处理名词,您可以运行一个标准的词性部分(POS)标签,然后只自定义标记名词短语。
最好采用主动学习方法。主动学习使训练集成为整个机器学习管道的一部分,从而大大减少了注释的数量。"基于深度主动学习的命名实体识别“是目前最先进的。
一旦你有了一组标签,你就可以训练新的分类器了。常用的选项是斯坦福命名实体识别器 (NER)和spaCy NER。斯坦福核心NLP的一个详细示例可以找到这里。
https://datascience.stackexchange.com/questions/31584
复制相似问题