我需要在Pyspark(2.4.4)中缓存一个数据帧,内存缓存很慢。
我使用Spark缓存对Pandas缓存进行基准测试,通过读取相同的文件(CSV)。具体地说,Pandas的速度要快3-4倍。
谢谢,提前说
发布于 2020-01-28 11:11:47
你在拿苹果和桔子作比较。Pandas是单机单核数据分析库,而pyspark是分布式(集群计算)数据分析引擎。这意味着,由于开销(分布式体系结构,JVM...),您永远不会超过pandas在使用pyspark读取单个机器上的小文件的性能。这也意味着,一旦你的文件超过一定的大小,pyspark的性能就会超过pandas。
作为一名开发人员,您必须选择最适合您需求的解决方案。当pandas在你的项目中速度更快,并且你不希望在未来有大量的数据增长时,使用pandas。或者使用pyspark或者dask或者...
https://stackoverflow.com/questions/59938895
复制相似问题