文章/答案/技术大牛

发布

社区首页 >问答首页 >选择最小散列的哈希数？处理极其稀疏的数据，并希望有更多的冲突

问选择最小散列的哈希数？处理极其稀疏的数据，并希望有更多的冲突
EN

Data Science用户

提问于 2016-02-25 14:12:30

回答 1查看 120关注 0票数 2

我试图使用min散列来生成集群和相似点，我主要是使用这些资源中的想法。

我正在处理的数据由用户和项之间的交互组成。有220万不同的用户和4.4亿不同的项目。在所有的数据中，只有9.05亿条记录，所以非常稀少。

在我的方法中，我通过重新排序条目(其中有440米)来计算每个用户的H最小哈希值。用户有广泛的项目交互。交互次数最多的用户为2.5M，最低的为1次，平均为403次，中位数仅为26次。

在Google的关于Google新闻的文档中，他们建议连接2-4键(LSH)，并这样做10-20次。我认为，当用户与较少的项目(如新闻文章)进行交互时，这种方法效果很好，但对于我所做的事情来说，它却低得可怜。当我为具有1,000+交互的用户测试此数目的密钥时，许多用户没有任何连接的min与另一个用户匹配。这是一个问题，因为我可以手动计算其中一些用户的余弦或jaccard相似度，并为我的需要看到一个可接受的相似度。我已经找到了更好的结果，不连接散列键和使用多达200。

对于我的大多数散列密钥组，224万用户大约有2M个不同的散列键。因此，碰撞的数量相当少。

你们有什么增加集群数量的建议吗？我正在考虑使用1,000个哈希键和配对用户，如果他们匹配多个。提前谢谢。

data-mining

bigdata

clustering

recommender-system

similarity

回答 1

Data Science用户

发布于 2021-09-05 17:05:39

一种选择是将散列函数更改为更有可能发生冲突的函数。例如，皮尔逊散列是一个8位的散列，它比更常见的散列函数有更多的冲突。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/10391

复制

相似问题

问选择最小散列的哈希数？处理极其稀疏的数据，并希望有更多的冲突
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问选择最小散列的哈希数？处理极其稀疏的数据，并希望有更多的冲突EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问选择最小散列的哈希数？处理极其稀疏的数据，并希望有更多的冲突
EN