文章/答案/技术大牛

发布

社区首页 >问答首页 >地图推理中的HyperLogLog正确性

问地图推理中的HyperLogLog正确性
EN

Stack Overflow用户

提问于 2014-08-05 14:48:09

回答 1查看 448关注 0票数 2

HyperLogLog算法一直困扰我的一点是它对密钥哈希的依赖。我遇到的问题是，论文似乎假设每个分区上都有一个完全随机的数据分布，但是在上下文中它经常被使用(MapReduce风格的作业)，它们的哈希值通常是分布的，所以所有重复的键都在同一个分区上。对我来说，这意味着我们实际上应该添加HyperLogLog生成的基数，而不是使用某种平均技术(在通过散列与HyperLogLog散列相同的东西进行分区的情况下)。

所以我的问题是:这是HyperLogLog的一个真正的问题，还是我没有足够详细地阅读报纸？

hadoop

hash

mapreduce

hyperloglog

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-01-16 22:59:47

如果在这两个任务中使用非独立的散列函数，这是一个真正的问题。

假设分区通过哈希值的第一个b位来决定节点。如果在分区和HyperLogLog中使用相同的哈希函数，算法仍将正常工作，但精度将被牺牲。实际上，这相当于使用m/2^b桶(log2m‘= log2m-b)，因为第一个b位总是相同的，所以只有log2m-b位才能选择HLL桶。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25141787

复制

相似问题

问地图推理中的HyperLogLog正确性
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问地图推理中的HyperLogLog正确性EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问地图推理中的HyperLogLog正确性
EN