问确保机器学习模型中的训练和测试集之间不会发生记忆
EN

Stack Overflow用户

提问于 2022-12-02 23:52:54

回答 1查看 7关注 0票数 0

最近，承包商为我们开发了一个新的解决方案，从药品政策中提取相关药物(该政策描述了药物的覆盖标准)。他们的部分过程是通过培训，替换也出现在测试集中的药物(“泰诺”等)，以确保模型了解药物的背景，而不是记住药物名称(例如)。出现在诸如"Tylenol“这样的句子中.)。

我的问题是，如果我们增加了新的测试数据，并且我们想重新评估模型，那么在测试集中替换单词是否有意义，以确保它们不会出现在以前的培训集中，还是应该重新替换训练集中的单词，重新训练模型，并重新评估新的测试数据？

谢谢

发布于 2022-12-02 23:56:37

通常情况下，为了避免被模型记忆，在测试集中替换单词并不是一个好主意。这是因为测试集的目的是评估模型对未见数据的性能，并且在测试集中替换单词有效地减少了模型的“未见”数据。这可能导致夸大的性能分数和错误的感觉模型的可概括性的新数据。

与其在测试集中替换单词，不如对包含更新单词的新训练数据对模型进行再训练，然后在新的测试集上对模型进行评估。这将更准确地反映模型在新数据上的性能，并有助于避免过度适应培训集。

同样重要的是要注意的是，训练模型的目的不应该是避免记忆特定的单词，而应该是学习数据中的基本模式和关系，从而使它能够做出准确的预测。这可以通过正则化和使用适当的培训和评估指标等技术来实现。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74662729

复制

相似问题

问确保机器学习模型中的训练和测试集之间不会发生记忆EN