首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >现实场景中监督学习的训练与测试数据集

现实场景中监督学习的训练与测试数据集
EN

Data Science用户
提问于 2019-07-26 09:41:37
回答 2查看 65关注 0票数 2

在教程中,我注意到只有相似的数据被用于模型训练和预测。

我想知道在哪些情况下您无法找到与最终用例(测试数据)相似的培训数据?

如果我正在建立一个房屋租赁推荐系统,但我能找到的最接近的培训数据是关于电影的,那会发生什么呢?而且它的功能比我在房子的场景中要少。

这种情况有多常见,一般是如何处理的?

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-07-26 12:50:28

对于许多机器学习算法来说,数据的一个重要假设是来自训练集和测试集的数据是独立的、同分布的,并且来自相同的概率分布。更多解释,这里。话虽如此,你不可能为电影推荐和房屋租赁提供模式。或者据我所知。

然而,如果您有大量的电影推荐数据和少量的房屋租赁推荐数据,则可以使用一种称为转移学习的技术来培训房屋租赁推荐模型。这个想法很简单:如果两个任务是相似的,我们应该能够用我们从一个任务中学到的东西来更快更好地学习另一个任务。

以下是(用于神经网络)的一般过程:

  • 利用电影数据训练电影推荐模型
  • 使用房屋租赁数据对这个推荐系统进行微调:冻结大部分电影推荐,用房屋租赁数据对最后几层进行再培训。

这只是一个方向,如何可以做到这一点,有相当多的相关文献供您了解更多。我想说,这种情况并不少见。

票数 2
EN

Data Science用户

发布于 2019-07-26 12:05:10

您应该具有相同数量的用于培训的功能。一个人不能在用例中使用经过训练的模型,因为它的特征数量较少。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/56426

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档