我有一些与相似度有关的问题
假设我们有一个矩阵M,其中M(i,j)是用户i和用户j之间的相似测度。
每个用户的特征是: id-user \ country \id-艺术家id-轨
为此,我选择使用Jaccard相似性度量。
Jaccard决心根据用户所听的音轨来计算用户之间的相似性。我的问题是:是否可以同时考虑id-轨和id-艺术家来衡量用户之间的相似性?
谢谢
发布于 2015-10-01 18:53:46
是的,有多种不同的方式。
首先,我们可以考虑(id-artist,id-track)项作为集合的元素,并通过比较这些集合来计算Jaccard的相似性。请注意,如果艺术家的id没有提供超出轨道id的附加信息,这将给出相同的结果,而如果一个特定的轨道id可能与多个艺术家关联,则它将提供不同的结果。
其次,我们可以计算歌曲上的Jaccard相似性,然后再计算艺术家上的Jaccard相似性,然后将两者相加(可能是通过一些常数系数缩放两者)。这样,两个听同一位艺术家,但那些艺术家没有一首相同歌曲的用户,将被评为比不同艺术家听不同歌曲的用户更相似。
什么系数是有意义的?好的,您可以从每一个(也就是.5*similarity_artist+.5*similarity_track)的0.5开始,看看这是否合理,如果不是的话可以进行调整。
发布于 2015-11-05 11:32:54
是的,你可以做到这一点(实际上在很多方面)。我喜欢把这个问题归结为一个分类问题,并找出适当的方法将它们结合起来。有关详细信息,请参阅:https://stats.stackexchange.com/questions/61351/how-to-combine-multiple-similarity-measures/166419#166419
https://datascience.stackexchange.com/questions/8265
复制相似问题