搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

数据草图: MinHash LSH森林

我正在尝试创建一个用于最近邻搜索的forst，但我不确定这样做是否正确，或者甚至不确定MinHash / LSH是否适合我的数据。我问这个是因为结果是不可用的。512维，例如值有点，例如0或1，这对于MinHash / LSH是可用的吗？如果是，我该如何为每条记录构造MinHash？据我所知，minhash的意义已经是将数据映射到这样的位结构了？这样我就可以把比特装进去了？就像在h = MinHash(num_perm=512, hashvalue

浏览 4提问于2018-04-03得票数 2

2回答

哪个minhash比simhash更有优势？

我正在使用simhash，但也看到minhash更有效。请给我解释一下: minhash比simhash更有优势的是什么？

浏览 9修改于2016-04-17得票数 3

1回答

基于minhash算法的Pairiwse jaccard相似度

我正在处理200k个句子，我想使用minhash算法找到Jaccard相似度。但由于有两个for循环，它变得非常慢。有人能给我推荐一些好的实现方法吗？下面是我当前的代码 m1 = MinHash() for d in data1: m1.update(d.encode('ut

浏览 9提问于2020-06-19得票数 0

4回答

计算Minhash的证明

我正在阅读MinHash技术来估计两个集合之间的相似度:给定集合A和B，h是散列函数，hmin( S )是集合S的最小散列，即hmin(S)=s中s的min(h(S))。

浏览 8提问于2013-04-03得票数 0

1回答

如何在NEST中使用ElasticSearch MinHash插件

如何在nest中使用minhash？

浏览 12修改于2015-03-16得票数 0

回答已采纳

1回答

使用通配符的Elasticsearch minhash前缀查询？

我为一些文本生成了minhash字段(基于minhash算法)，现在我的问题是，是否可以使用通配符来补充或添加前缀查询？

浏览 5修改于2019-03-28得票数 0

1回答

关于n置换Minhash实现的建议

在我的例子中，我希望在minhash上应用一个置换(就像在datasketch工具中一样)，我认为这种实现对我来说并不好。我已经从稀疏矩阵开始了。有没有人可以给出一些关于这个技术的建议？

浏览 0提问于2018-11-10得票数 1

1回答

奇怪的性能问题火花LSH MinHash approxSimilarityJoin

我正在使用Apache的approxSimilarityJoin方法加入两个数据集，但我看到了一些奇怪的行为。如您所见，每个任务的中位数为6ms (我正在一个较小的源数据集上运行它以进行测试)，但一个任务需要10分钟。它几乎不使用任何CPU周期，它实际上连接数据，但如此缓慢。第二个最慢的任务运行在14s，有4倍以上的记录&实际上是溢出到磁盘。join本身是pos & hashValue (min散列)上的两个数据集之间的内部连接，根据min散列规范&am

浏览 1提问于2018-07-18得票数 6

4回答

你能推荐一个好的minhash实现吗？

我正在努力寻找一个可以在我的工作中使用的minhash开源实现。我需要的功能非常简单，给定一个set作为输入，实现应该返回它的minhash。

浏览 4修改于2013-01-26得票数 19

2回答

使用minHash进行2组以上的比较

我有一个名为FindSimilar的类，它使用minHash来查找两个集合之间的相似之处(对于这个目标，它非常有用)。set2.add("b"); set2.add("SAN"); FindSimilar<String> minHashSystem.out.println("Set2 : " + set2); System.out.println

浏览 9修改于2016-11-28得票数 2

回答已采纳

1回答

如何从minhash中获得相似矩阵？

我读过许多教程，尝试过一些min散列LSH，但是它不能生成相似矩阵，而是返回超过阈值的相似数据。我怎样才能产生它？我的意图是使用LSH结果进行聚类。

浏览 2提问于2018-01-04得票数 0

回答已采纳

1回答

如何使用分带技术与分布式MinHash对集合(用户/文档)进行聚类？

对于如何使用MinHash和分带技术进行集群设置，我有很大的疑问。我假设每个阅读的人都对MinHash有很好的了解，所以我不会定义我正在使用的大多数术语。我的目标是使用MinHash根据用户签名的相似性对他们进行聚类。在一个本地的、非带状的设置中，这将是微不足道的:如果它们的签名散列是相同的，那么它们就在同一个集群中。

浏览 2提问于2016-05-24得票数 0

回答已采纳

2回答

如何利用MinHash计算两个书包的文本相似度？

MinHash能做这个吗？

浏览 10提问于2017-08-31得票数 0

1回答

为什么我使用MinHash分析器的查询无法检索副本？

"output_unigrams": False "my_minhash_filter"filter": [ "my_minhash_filterperception and clarity""I

浏览 6修改于2020-08-03得票数 0

回答已采纳

1回答

K-意思是使用从minhash生成的签名矩阵。

我在文档和它们的标签上使用min散列来从这些文档生成签名矩阵。我已经证实，签名矩阵很好地比较了已知的类似文档的jaccard距离(例如，两篇关于同一运动队的文章或两篇关于同一世界事件的文章)给出了正确的读数。我尝试过使用文档的签名向量，并在迭代的kmeans算法中计算这些向量的欧几里德距离，而我的集群总是没有意义。我知道应该有两个集群(我的数据集是几千篇关于体育或商业的文章)，最后，我的两个集群总是随机的。我确信，散列成整数的随机性每次都会使距离函数倾斜，并在两个签名矩阵中覆盖类似的散列值。

浏览 0修改于2018-02-10得票数 4

回答已采纳

2回答

Minhash实现如何查找用于排列的散列函数

我在实现minhashing时遇到了问题。在纸上和阅读中，我理解了这个概念，但我的问题是排列“技巧”。不是排列集合和值的矩阵，而是建议实现：“选择k(例如100)个独立的散列函数”，然后算法说： for each column c for each hash function h_i do M(i, c) := h_i(r) 在不

浏览 8提问于2013-09-24得票数 5

1回答

不能将Mahout minhash org.apache.hadoop.io.LongWritable转换为org.apache.hadoop.io.Text

mahout-distribution-0.8$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.minhash.MinHashDriverminHashDriver/ -owtce@osy-Inspiron-N5110:~$ $MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.minhash.MinHashDriverHADOOP

浏览 4提问于2013-09-11得票数 0

1回答

MinHash Spark中与OR条件的字符串相似性

我有两个数据集，第一个是大型参考数据集，第二个数据集通过MinHash算法从第一个数据集中找到最佳匹配。

浏览 3修改于2018-01-25得票数 1

回答已采纳

3回答

所有执行者均已死亡，MinHash LSH PySpark approxSimilarityJoin在EMR集群上自动连接。

= 0.3 fuzzy_method = fuzz.token_set_ratio # Calculate edges using minhash

浏览 6修改于2020-05-29得票数 2

1回答

极慢的火花源滤波器

我正在对一个pyspark dataframe执行一个简单的过滤操作，它有一个minhash jaccard相似性列。minhash_sig = '123'，'345‘ minhash_sig = [str(x) for x in minhash.signature(doc)] # columns are id, and minhash_arr

浏览 20修改于2021-08-30得票数 0

回答已采纳

第 2 页第 3 页第 4 页

点击加载更多

数据草图: MinHash LSH森林

哪个minhash比simhash更有优势？

基于minhash算法的Pairiwse jaccard相似度

计算Minhash的证明

如何在NEST中使用ElasticSearch MinHash插件

使用通配符的Elasticsearch minhash前缀查询？

关于n置换Minhash实现的建议

奇怪的性能问题火花LSH MinHash approxSimilarityJoin

你能推荐一个好的minhash实现吗？

使用minHash进行2组以上的比较

如何从minhash中获得相似矩阵？

如何使用分带技术与分布式MinHash对集合(用户/文档)进行聚类？

如何利用MinHash计算两个书包的文本相似度？

为什么我使用MinHash分析器的查询无法检索副本？

K-意思是使用从minhash生成的签名矩阵。

Minhash实现如何查找用于排列的散列函数

不能将Mahout minhash org.apache.hadoop.io.LongWritable转换为org.apache.hadoop.io.Text

MinHash Spark中与OR条件的字符串相似性

所有执行者均已死亡，MinHash LSH PySpark approxSimilarityJoin在EMR集群上自动连接。

极慢的火花源滤波器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐