首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >训练集和真实世界数据集之间的差异:领域适应?

训练集和真实世界数据集之间的差异:领域适应?
EN

Data Science用户
提问于 2016-08-30 12:26:07
回答 4查看 849关注 0票数 3

我在文献中读到,在某些情况下,训练集并不代表真实世界的数据集。然而,我似乎找不到一个恰当的术语来描述这一现象;如何才能恰当地解决这一问题?

编辑:

到目前为止,我已经确定了术语域自适应,简称为机器学习领域,它的目的是从某种数据分布中学习,以预测来自不同(但相关的)目标分布的数据。

EN

回答 4

Data Science用户

发布于 2016-08-31 13:34:58

你可能在找采样偏差。此外,另一种情况(培训集实际上很好地代表现实世界的数据集)通常被称为有代表性的样本。

希望这能有所帮助。

票数 3
EN

Data Science用户

发布于 2017-07-16 21:04:57

您所描述的案例在文献中被称为样本选择偏差1。这个案例是迁移学习/域适应领域的一部分。训练集不能很好地表示真实世界的数据集,这意味着训练集和测试集的分布存在差异。来自领域适配领域的另一个术语,也就是同样的问题,是协变量转移。

  1. B. Zadrozny,“在样本选择偏差下学习和评估分类器”,Proc。第21届国际会议。机器学习,2004年7月。
票数 1
EN

Data Science用户

发布于 2016-09-30 15:21:05

外推?当您的数据分布随时间发生变化时,会发生很多情况,因此在培训集中建模良好的系统将不知道如何处理不在类似范围内的值。更多的是一个笼统的术语,所以这可能是你想要的。

它也有不同的效果,取决于你使用的技术。像随机森林这样的东西不是很好的外推,其他的如logistic回归仍然可以表现得很好。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13756

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档