最近,承包商为我们开发了一个新的解决方案,从药品政策中提取相关药物(该政策描述了药物的覆盖标准)。他们的部分过程是通过培训,替换也出现在测试集中的药物(“泰诺”等),以确保模型了解药物的背景,而不是记住药物名称(例如)。出现在诸如"Tylenol“这样的句子中.)。
我的问题是,如果我们增加了新的测试数据,并且我们想重新评估模型,那么在测试集中替换单词是否有意义,以确保它们不会出现在以前的培训集中,还是应该重新替换训练集中的单词,重新训练模型,并重新评估新的测试数据?
谢谢
发布于 2022-12-02 23:56:37
通常情况下,为了避免被模型记忆,在测试集中替换单词并不是一个好主意。这是因为测试集的目的是评估模型对未见数据的性能,并且在测试集中替换单词有效地减少了模型的“未见”数据。这可能导致夸大的性能分数和错误的感觉模型的可概括性的新数据。
与其在测试集中替换单词,不如对包含更新单词的新训练数据对模型进行再训练,然后在新的测试集上对模型进行评估。这将更准确地反映模型在新数据上的性能,并有助于避免过度适应培训集。
同样重要的是要注意的是,训练模型的目的不应该是避免记忆特定的单词,而应该是学习数据中的基本模式和关系,从而使它能够做出准确的预测。这可以通过正则化和使用适当的培训和评估指标等技术来实现。
https://stackoverflow.com/questions/74662729
复制相似问题