我在文献中读到,在某些情况下,训练集并不代表真实世界的数据集。然而,我似乎找不到一个恰当的术语来描述这一现象;如何才能恰当地解决这一问题?
到目前为止,我已经确定了术语域自适应,简称为机器学习领域,它的目的是从某种数据分布中学习,以预测来自不同(但相关的)目标分布的数据。
发布于 2016-08-31 13:34:58
你可能在找采样偏差。此外,另一种情况(培训集实际上很好地代表现实世界的数据集)通常被称为有代表性的样本。
希望这能有所帮助。
发布于 2017-07-16 21:04:57
您所描述的案例在文献中被称为样本选择偏差1。这个案例是迁移学习/域适应领域的一部分。训练集不能很好地表示真实世界的数据集,这意味着训练集和测试集的分布存在差异。来自领域适配领域的另一个术语,也就是同样的问题,是协变量转移。
发布于 2016-09-30 15:21:05
外推?当您的数据分布随时间发生变化时,会发生很多情况,因此在培训集中建模良好的系统将不知道如何处理不在类似范围内的值。更多的是一个笼统的术语,所以这可能是你想要的。
它也有不同的效果,取决于你使用的技术。像随机森林这样的东西不是很好的外推,其他的如logistic回归仍然可以表现得很好。
https://datascience.stackexchange.com/questions/13756
复制相似问题