首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >LSH的桶数

LSH的桶数
EN

Stack Overflow用户
提问于 2016-05-11 19:36:14
回答 1查看 2.6K关注 0票数 4

在LSH中,您将hash slices of the documents放入桶中。这样做的想法是,这些落入同一个桶中的文档可能是相似的,因此可能是最近的邻居。

对于40.000个文档来说,桶的数量有什么好的价值(差不多)?

我现在把它叫做:number_of_buckets = 40.000/4,但是我觉得它可以减少更多。

有什么想法吗?

亲属:How to hash vectors into buckets in Locality Sensitive Hashing (using jaccard distance)?

EN

回答 1

Stack Overflow用户

发布于 2019-09-04 14:14:02

我认为至少应该是n。如果小于这一点,假设是n/2,您可以确保每个文档平均至少有一个可能的类似文档,这是由于碰撞。因此,计算相似性时的复杂性至少是O(n)

另一方面,您将必须通过桶至少K倍,所以是O(K*B),是B您的桶。我认为后者更快,因为它只是迭代数据结构(即某种字典),并计算每个桶上散列的文档数。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37171834

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档