我正在评估一个使用精确和召回的推荐引擎。到目前为止,我已经用4个不同的数据集对系统进行了评估,精度值分别为0.833、0.857、0.857和0.769。相同数据集的召回值分别为0.448、0.875、0.5504和0.512。如何使用这些结果来评估测试中的推荐引擎?我是否应该在同一数据集上应用标准CF并检查值,或者是否有任何标准的精确和召回基准来对推荐系统进行分类?例如,如果精度是x,召回是y,那么这个算法应该被丢弃还是接受?
发布于 2014-10-15 18:32:15
一个标准的基准测试是使用平均精度。
https://stackoverflow.com/questions/26084540
复制相似问题