如果数据足够小，你可以用熊猫来处理，那么你很可能不需要火星雨。当您拥有如此大的数据大小，以至于无法在一台机器中存储它，因为它可以执行分布式计算时，Spark是非常有用的。尽管如此，如果计算足够复杂，可以从大量的并行化中受益，那么您就可以看到使用吡火花提高效率。与熊猫相比，我对火星雨的API更满意，所以我最终可能会使用吡火花，但是你是否会看到效率的提高在很大程度上取决于这个问题。

票数 9

Stack Overflow用户

发布于 2021-12-06 21:12:52

熊猫在一台机器上运行操作，而PySpark运行在多台机器上。如果您正在处理更大的数据集的机器学习应用程序，PySpark是最适合的，它可以处理比Pandas快很多倍(100倍)的操作。

PySpark对于处理大型数据集非常有效。但是，经过预处理和数据探索，您可以将火花数据转换为Pandas数据，使用sklearn来训练机器学习模型。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70177467

复制

相似问题

问数据库- Pyspark vs Pandas
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据库- Pyspark vs PandasEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据库- Pyspark vs Pandas
EN