首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark-redis:数据帧写入速度太慢

Spark-redis:数据帧写入速度太慢
EN

Stack Overflow用户
提问于 2019-01-24 09:49:04
回答 1查看 861关注 0票数 0

我是一名Apache Spark/Redis用户,最近我在一个项目中尝试了spark-redis。该程序正在生成大约有300万行的PySpark数据帧,我使用以下命令将其写入到Redis数据库中

代码语言:javascript
复制
df.write \
  .format("org.apache.spark.sql.redis") \
  .option("table", "person") \
  .option("key.column", "name") \
  .save()

就像GitHub project dataframe page上建议的那样。

然而,对于相同的Spark集群配置(相同数量的EC2实例和实例类型),我得到了不一致的写入时间。有时候它发生得很快,有时候太慢了。有没有办法加快这个过程并获得一致的写入时间?我想知道当里面已经有很多键的时候,它是不是发生得很慢,但是对于哈希表来说这不应该是一个问题,不是吗?

EN

回答 1

Stack Overflow用户

发布于 2019-01-24 12:49:07

这可能是您的分区策略的问题。

在写入前检查"df“的分区数,看看分区数与执行时间是否有关系。

如果是这样的话,使用适当的分区层次对"df“进行分区(重新分区到固定数量的分区或基于列值重新分区)应该可以解决这个问题。

希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54338284

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档