假设我想比较一下一种推荐系统(A)是否比另一种(B)更好。
一种方法是让人们对这两个系统返回的建议进行评分。
然而,在某些情况下,我想评估我的推荐系统离线。我考虑过的一种方法是收集来自system的建议的用户评等,并将它们转换为测试数据集。但是,如果system返回没有出现在测试数据集中的建议,这并不意味着它们是坏的。这只意味着我对他们没有评价。
一些替代办法:
你还会推荐什么其他方法呢?
发布于 2020-04-28 17:29:21
发布于 2020-10-16 14:06:59
传统的离线评估使用从机器学习和信息检索中借用的度量和方法来估计建议的执行情况。他们可能是偏见,但他们是芯片替代。
离线评估遵循培训测试评估过程:
1.将用户数据分割为训练集和测试集。
2.针对每个用户的培训set.For的培训推荐算法:
2.1.产生一份建议清单
2.2.检验预测精度或排序效果
对于通常将用户数据分割成训练集和测试集的部分,在训练推荐时删除一部分数据,然后将其作为一个真实的基础。
在您的例子中,我将计算两个RS的度量,并比较结果,当然使用相同的数据。有关评估的更多信息,可以在https://scholarworks.boisestate.edu/cgi/viewcontent.cgi?article=2703&context=td中阅读。
https://datascience.stackexchange.com/questions/69590
复制相似问题