MovieLens 100k数据集提供了五对训练和测试集,用于5折交叉验证。然而,我了解到在测试集上测试之前应该使用验证集,以便获得最佳参数值。
我假设在最初的拆分中,五个“测试集”实际上是验证集。如果这是真的,那么就没有可以测试模型性能的“测试集”了。那么,我是否应该重新拆分MovieLens数据,以便执行合理的训练-验证-测试过程?
谢谢!
发布于 2013-01-21 22:21:30
实际上,您有2个选项用于电影镜头集中的测试。
第一个选项:用户被分成5个组,在每个组中也被分成一个基组和一个测试组。基础组在这里“训练”您的算法,而测试组则进行测试。你有5个不同的组,所以你可以做5次学习和测试过程,最终得到不同集合的统计信息。
第二种选择: 100k集合中的每个用户都有20个评级。在第二种情况下,你有两个集合a和b。每个用户在a上有10个评级,在b上有10个评级。因此,你可以从集合a中学习,然后尝试猜测和比较集合b。
当然,有了完整的设置,如果你愿意,你也可以设置你自己的组!
https://stackoverflow.com/questions/12589256
复制相似问题