首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >极慢的火花源滤波器

极慢的火花源滤波器
EN

Stack Overflow用户
提问于 2021-08-30 18:50:05
回答 1查看 192关注 0票数 0

我正在对一个pyspark dataframe执行一个简单的过滤操作,它有一个minhash jaccard相似性列。

minhash_sig = '123','345‘

代码语言:javascript
复制
minhash_sig = [str(x) for x in minhash.signature(doc)]


df = spark.createDataFrame(....) # --dataframe with 100,000 rows
# columns are id, and minhash_array(arrays of minhash signatures).
df = df.withColumn('minhash_array0', array([lit(i) for i in minhash_sig]))
intersect = size(array_intersect("minhash_array0", "minhash_array"))
union = size(array_union("minhash_array0", "minhash_array"))
df = df.withColumn('minhash_sim',intersect/union)

df = df.filter(df.column > .5)
df.head()

我已经尝试过df.head() before the filter,这只需要几秒钟就可以完成。

此过滤后头部操作在运行后15分钟内不会完成。我已经检查了数据帧的分区数量,它只有4个。

我应该减少分区的数量吗?是否有其他解决方案可以减少计算时间?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-30 21:37:44

通过将群集升级到c5 2x large与m4 large,解决了此问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68989023

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档