我无法理解sklearn:score.html的输入格式
目前,我有以下问题:我有多个查询,每个查询的排名概率都已成功计算出来。但是现在的问题是计算测试集的nDcg,我想要对它使用sklearn。在链接上给出的示例
>>> y_true = [1, 0, 2]
>>> y_score = [[0.15, 0.55, 0.2], [0.7, 0.2, 0.1], [0.06, 0.04, 0.9]]
>>> ndcg_score(y_true, y_score, k=2)
1.0据网站介绍,y_true是地面真理,y_score是probabilities.So,以下是我的问题:
发布于 2018-09-05 14:06:34
您可以类似于多类分类问题。
所以回答你的问题
一次查询
我把它称为文件的相关标签,因为它可能有重复的值。
y_score是属于某个类的文档的概率分布。在您的示例中,y_score = [[0.15, 0.55, 0.2], [0.7, 0.2, 0.1], [0.06, 0.04, 0.9]]意味着第0文档属于第1类(0.55为最大),第1文档属于类0 (0.7为最大),第2文档属于第2类(0.9为最大值)。缺乏文档,而且示例也具有误导性。最好有四份文件。
然后,您可以在多个查询中平均每个查询的nDCG分数。
https://stackoverflow.com/questions/49989128
复制相似问题