首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在开发机器学习模型时,测试集中每个类的大小是否重要?

在开发机器学习模型时,测试集中每个类的大小是否重要?
EN

Data Science用户
提问于 2020-11-16 01:55:44
回答 1查看 46关注 0票数 2

我正在考虑如何在现实世界中应用经过训练的分类器。我们知道,当我们对数据集进行过度/欠采样以平衡数据集时,我们永远不会触及测试集,因为我们希望保持数据集的真实行为。但是,我不理解的部分是测试集的分布在分类器性能中的作用。

假设我有一个模型,可以将电子邮件标记为垃圾邮件或非垃圾邮件。如果我在我的电子邮件服务中启动这个模型,在特定的时间窗口中,我的分类器接收到的所有电子邮件都可能是非垃圾邮件。但经过训练的模型对每个类别都有50-50%的分布。我的问题是,does this difference in the distribution--during the prospective application-- change the performance of the model?,例如,如果我的网络服务在那个时间窗口收到5个垃圾邮件和5个非垃圾邮件,我应该得到一个更准确的分类吗?根据我的理解,答案应该是否定的。尽管如此,我仍然随处可见,人们都在谈论测试分布的重要性及其在预测模型的性能和准确性中的作用。

谢谢。

EN

回答 1

Data Science用户

发布于 2020-11-16 09:15:22

取决于您是否要进行在线学习。

假设您将进行在线学习/增量学习,而测试集分发将产生影响。例如,由于神经网络的灾难性遗忘。

如果您正在进行批处理预测,则测试集分布没有任何区别。模型没有区别,因为它不改变ist状态。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/85476

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档