多个用户最喜欢的数据(不超过10000)如下:
user1: url_ 1, url_ 5, url_ 13, url_ 104, ....
user2: url_ 3, url_ 20, url_ 104, url_ 638, ....
user3: url_ 11, url_ 13, url_ 57, url_ 104, ....
....
userN: url_ 3, url_ 310, url_ 517, url_ 638, ....每个用户最喜欢的url的数量通常是几十到数百个,最多不超过1000个,但是url的可能性是无限的。
所有用户都预先根据条件进行过滤。因此,每个用户最喜欢的url的可重复性估计在3%到20%之间。
哪种算法最适合于计算用户之间的相似度?谢谢。
发布于 2022-11-28 09:22:07
您正在寻找来自同一宇宙的两个无序子集(没有副本)之间的相似性。这个用例最常见的距离度量是Jaccard相似系数。
https://stackoverflow.com/questions/74598248
复制相似问题