我读了很多关于lsh算法的资料,但我有一个关于它的问题,完全是在频带上。
S1 = {1, 2, 4, 5} //band signatures for set S1
S2 = {5, 4, 4, 8} //band signatures for set S2
S3 = {1, 2, 4, 9} //band signatures for set S3当我在一个确定的波段b中得到一个集合(例如S1)的所有minwise签名时,我必须做什么?我必须对这些签名求和(例如1+2+4+5)或一个或运算符(例如1或2或4或5)或其他什么?
发布于 2015-11-12 09:07:09
这取决于你想要实现什么。
我个人喜欢散列波段签名以创建签名之间的and like关系,因此,只有当两个数据具有定义波段的所有相同签名时,这些数据才具有相同的带状签名
发布于 2018-12-21 18:09:50
在LSH中,您谈论的是两个文档落在同一存储桶上的概率。在生成minhash之后,您应该将它们划分为'b‘个带,每个带包含'r’行。然后,将具有相同波段的文档作为相似的候选。找到给定文档的候选文档后,您可以使用任何相似性度量来度量相似性,并挑选k个最相似的文档。
https://stackoverflow.com/questions/29399916
复制相似问题