首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据库- Pyspark vs Pandas

数据库- Pyspark vs Pandas
EN

Stack Overflow用户
提问于 2021-11-30 23:41:56
回答 2查看 5.6K关注 0票数 3

我有一个python脚本,在那里我使用熊猫来转换/操作我的数据。我知道我有一些“低效”的代码块。我的问题是,如果火花放电速度要快得多,我能用火星雨代替熊猫替换这些积木吗?还是我需要所有的东西都装在火星雨里?如果我在Databricks中,这到底有多重要,因为它已经在星系团中了?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-12-01 01:52:14

如果数据足够小,你可以用熊猫来处理,那么你很可能不需要火星雨。当您拥有如此大的数据大小,以至于无法在一台机器中存储它,因为它可以执行分布式计算时,Spark是非常有用的。尽管如此,如果计算足够复杂,可以从大量的并行化中受益,那么您就可以看到使用吡火花提高效率。与熊猫相比,我对火星雨的API更满意,所以我最终可能会使用吡火花,但是你是否会看到效率的提高在很大程度上取决于这个问题。

票数 9
EN

Stack Overflow用户

发布于 2021-12-06 21:12:52

熊猫在一台机器上运行操作,而PySpark运行在多台机器上。如果您正在处理更大的数据集的机器学习应用程序,PySpark是最适合的,它可以处理比Pandas快很多倍(100倍)的操作。

PySpark对于处理大型数据集非常有效。但是,经过预处理和数据探索,您可以将火花数据转换为Pandas数据,使用sklearn来训练机器学习模型。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70177467

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档