文章/答案/技术大牛

发布

社区首页 >问答首页 >LSH的桶数

问LSH的桶数
EN

Stack Overflow用户

提问于 2016-05-11 19:36:14

回答 1查看 2.6K关注 0票数 4

在LSH中，您将hash slices of the documents放入桶中。这样做的想法是，这些落入同一个桶中的文档可能是相似的，因此可能是最近的邻居。

对于40.000个文档来说，桶的数量有什么好的价值(差不多)？

我现在把它叫做：number_of_buckets = 40.000/4，但是我觉得它可以减少更多。

有什么想法吗？

亲属：How to hash vectors into buckets in Locality Sensitive Hashing (using jaccard distance)?

bigdata

hash

document

nearest-neighbor

locality-sensitive-hash

回答 1

Stack Overflow用户

发布于 2019-09-04 14:14:02

我认为至少应该是n。如果小于这一点，假设是n/2，您可以确保每个文档平均至少有一个可能的类似文档，这是由于碰撞。因此，计算相似性时的复杂性至少是O(n)。

另一方面，您将必须通过桶至少K倍，所以是O(K*B)，是B您的桶。我认为后者更快，因为它只是迭代数据结构(即某种字典)，并计算每个桶上散列的文档数。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37171834

复制

相似问题

问LSH的桶数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问LSH的桶数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问LSH的桶数
EN