在这个“为从医学文献中提取关系训练机器学习分类器”的tutorial中,作者进行了实体替换,因为“我们不希望模型根据特定的实体名称学习,但我们希望它根据文本的结构学习”。
这通常是正确的,还是取决于数据集或使用的模型?
发布于 2018-10-14 12:03:42
实体替换,就像其他文本转换技术,包括词干和词汇化,通常是关系提取过程的一部分,因为它增加了每个特征的观察数量。比率的增加可能会帮助您解决问题,这取决于数据集的大小、特征的质量、特征提取的类型和模型的复杂性。
一个很好的经验法则是根据您对数据集的理解来定义您的目标,并随后定义您的可接受表示。例如,给定的教程开始理解miRNA和基因之间的关系。作者可以将miRNA-335、miRNA-342、miRNA-100和其他分组在相同的实体名称下。
在您对语料库没有领域理解的情况下,您可以在没有实体替换的情况下开始,检查结果并了解模型的偏差-方差权衡。然后,如果需要,在尝试一些集群技术后尝试实体替换。
https://stackoverflow.com/questions/52580818
复制相似问题