在教程中,我注意到只有相似的数据被用于模型训练和预测。
我想知道在哪些情况下您无法找到与最终用例(测试数据)相似的培训数据?
如果我正在建立一个房屋租赁推荐系统,但我能找到的最接近的培训数据是关于电影的,那会发生什么呢?而且它的功能比我在房子的场景中要少。
这种情况有多常见,一般是如何处理的?
发布于 2019-07-26 12:50:28
对于许多机器学习算法来说,数据的一个重要假设是来自训练集和测试集的数据是独立的、同分布的,并且来自相同的概率分布。更多解释,这里。话虽如此,你不可能为电影推荐和房屋租赁提供模式。或者据我所知。
然而,如果您有大量的电影推荐数据和少量的房屋租赁推荐数据,则可以使用一种称为转移学习的技术来培训房屋租赁推荐模型。这个想法很简单:如果两个任务是相似的,我们应该能够用我们从一个任务中学到的东西来更快更好地学习另一个任务。
以下是(用于神经网络)的一般过程:
这只是一个方向,如何可以做到这一点,有相当多的相关文献供您了解更多。我想说,这种情况并不少见。
发布于 2019-07-26 12:05:10
您应该具有相同数量的用于培训的功能。一个人不能在用例中使用经过训练的模型,因为它的特征数量较少。
https://datascience.stackexchange.com/questions/56426
复制相似问题