首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Spark (Pyspark)中加速缓存?

如何在Spark (Pyspark)中加速缓存?
EN

Stack Overflow用户
提问于 2020-01-28 05:05:14
回答 1查看 175关注 0票数 0

我需要在Pyspark(2.4.4)中缓存一个数据帧,内存缓存很慢。

我使用Spark缓存对Pandas缓存进行基准测试,通过读取相同的文件(CSV)。具体地说,Pandas的速度要快3-4倍。

谢谢,提前说

EN

回答 1

Stack Overflow用户

发布于 2020-01-28 11:11:47

你在拿苹果和桔子作比较。Pandas是单机单核数据分析库,而pyspark是分布式(集群计算)数据分析引擎。这意味着,由于开销(分布式体系结构,JVM...),您永远不会超过pandas在使用pyspark读取单个机器上的小文件的性能。这也意味着,一旦你的文件超过一定的大小,pyspark的性能就会超过pandas。

作为一名开发人员,您必须选择最适合您需求的解决方案。当pandas在你的项目中速度更快,并且你不希望在未来有大量的数据增长时,使用pandas。或者使用pyspark或者dask或者...

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59938895

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档