首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么时候需要实体替换才能进行关系提取?

什么时候需要实体替换才能进行关系提取?
EN

Stack Overflow用户
提问于 2018-10-01 02:22:13
回答 1查看 35关注 0票数 0

在这个“为从医学文献中提取关系训练机器学习分类器”的tutorial中,作者进行了实体替换,因为“我们不希望模型根据特定的实体名称学习,但我们希望它根据文本的结构学习”。

这通常是正确的,还是取决于数据集或使用的模型?

EN

回答 1

Stack Overflow用户

发布于 2018-10-14 12:03:42

实体替换,就像其他文本转换技术,包括词干和词汇化,通常是关系提取过程的一部分,因为它增加了每个特征的观察数量。比率的增加可能会帮助您解决问题,这取决于数据集的大小、特征的质量、特征提取的类型和模型的复杂性。

一个很好的经验法则是根据您对数据集的理解来定义您的目标,并随后定义您的可接受表示。例如,给定的教程开始理解miRNA和基因之间的关系。作者可以将miRNA-335、miRNA-342、miRNA-100和其他分组在相同的实体名称下。

在您对语料库没有领域理解的情况下,您可以在没有实体替换的情况下开始,检查结果并了解模型的偏差-方差权衡。然后,如果需要,在尝试一些集群技术后尝试实体替换。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52580818

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档