我有一个python脚本,在那里我使用熊猫来转换/操作我的数据。我知道我有一些“低效”的代码块。我的问题是,如果火花放电速度要快得多,我能用火星雨代替熊猫替换这些积木吗?还是我需要所有的东西都装在火星雨里?如果我在Databricks中,这到底有多重要,因为它已经在星系团中了?
发布于 2021-12-01 01:52:14
如果数据足够小,你可以用熊猫来处理,那么你很可能不需要火星雨。当您拥有如此大的数据大小,以至于无法在一台机器中存储它,因为它可以执行分布式计算时,Spark是非常有用的。尽管如此,如果计算足够复杂,可以从大量的并行化中受益,那么您就可以看到使用吡火花提高效率。与熊猫相比,我对火星雨的API更满意,所以我最终可能会使用吡火花,但是你是否会看到效率的提高在很大程度上取决于这个问题。
发布于 2021-12-06 21:12:52
熊猫在一台机器上运行操作,而PySpark运行在多台机器上。如果您正在处理更大的数据集的机器学习应用程序,PySpark是最适合的,它可以处理比Pandas快很多倍(100倍)的操作。
PySpark对于处理大型数据集非常有效。但是,经过预处理和数据探索,您可以将火花数据转换为Pandas数据,使用sklearn来训练机器学习模型。
https://stackoverflow.com/questions/70177467
复制相似问题