文章/答案/技术大牛

发布

社区首页 >问答首页 >什么时候需要实体替换才能进行关系提取？

问什么时候需要实体替换才能进行关系提取？
EN

Stack Overflow用户

提问于 2018-10-01 02:22:13

回答 1查看 35关注 0票数 0

在这个“为从医学文献中提取关系训练机器学习分类器”的tutorial中，作者进行了实体替换，因为“我们不希望模型根据特定的实体名称学习，但我们希望它根据文本的结构学习”。

这通常是正确的，还是取决于数据集或使用的模型？

发布于 2018-10-14 12:03:42

实体替换，就像其他文本转换技术，包括词干和词汇化，通常是关系提取过程的一部分，因为它增加了每个特征的观察数量。比率的增加可能会帮助您解决问题，这取决于数据集的大小、特征的质量、特征提取的类型和模型的复杂性。

一个很好的经验法则是根据您对数据集的理解来定义您的目标，并随后定义您的可接受表示。例如，给定的教程开始理解miRNA和基因之间的关系。作者可以将miRNA-335、miRNA-342、miRNA-100和其他分组在相同的实体名称下。

在您对语料库没有领域理解的情况下，您可以在没有实体替换的情况下开始，检查结果并了解模型的偏差-方差权衡。然后，如果需要，在尝试一些集群技术后尝试实体替换。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52580818

复制

相似问题

问什么时候需要实体替换才能进行关系提取？EN