我在实现minhashing时遇到了问题。在纸上和阅读中,我理解了这个概念,但我的问题是排列“技巧”。不是排列集合和值的矩阵,而是建议实现:“选择k(例如100)个独立的散列函数”,然后算法说: for each column c for each hash function h_i do M(i, c) := h_i(r)
在不
我正在对一个pyspark dataframe执行一个简单的过滤操作,它有一个minhash jaccard相似性列。minhash_sig = '123','345‘ minhash_sig = [str(x) for x in minhash.signature(doc)]
# columns are id, and minhash_arr