首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >确保机器学习模型中的训练和测试集之间不会发生记忆

确保机器学习模型中的训练和测试集之间不会发生记忆
EN

Stack Overflow用户
提问于 2022-12-02 23:52:54
回答 1查看 7关注 0票数 0

最近,承包商为我们开发了一个新的解决方案,从药品政策中提取相关药物(该政策描述了药物的覆盖标准)。他们的部分过程是通过培训,替换也出现在测试集中的药物(“泰诺”等),以确保模型了解药物的背景,而不是记住药物名称(例如)。出现在诸如"Tylenol“这样的句子中.)。

我的问题是,如果我们增加了新的测试数据,并且我们想重新评估模型,那么在测试集中替换单词是否有意义,以确保它们不会出现在以前的培训集中,还是应该重新替换训练集中的单词,重新训练模型,并重新评估新的测试数据?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2022-12-02 23:56:37

通常情况下,为了避免被模型记忆,在测试集中替换单词并不是一个好主意。这是因为测试集的目的是评估模型对未见数据的性能,并且在测试集中替换单词有效地减少了模型的“未见”数据。这可能导致夸大的性能分数和错误的感觉模型的可概括性的新数据。

与其在测试集中替换单词,不如对包含更新单词的新训练数据对模型进行再训练,然后在新的测试集上对模型进行评估。这将更准确地反映模型在新数据上的性能,并有助于避免过度适应培训集。

同样重要的是要注意的是,训练模型的目的不应该是避免记忆特定的单词,而应该是学习数据中的基本模式和关系,从而使它能够做出准确的预测。这可以通过正则化和使用适当的培训和评估指标等技术来实现。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74662729

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档