我刚开始学习spark,我对这个概念有点困惑,所以从spark安装,我们在spark安装子文件夹下得到了pyspark,我知道它是一个shell,从python包我们也可以通过pip install pyspark安装python包,所以我们可以运行python代码而不是提交到集群,那么这两者之间有什么区别呢?另外,在anaconda中,我们可以使用findspark并从那里使用pyspark,那么这是否意味着它没有使用python包中的pyspark?
另外,在现实世界的spark应用程序开发中,在哪个场景中使用了什么?提前谢谢。
发布于 2019-10-29 15:38:15
如果你使用pip install,它只会在本地安装必要的Python库,并且不会包含spark-submit脚本或其他Spark配置文件,否则你会下载所有的Spark。
因此,在notebooks之外的Spark的“真实世界”中,您需要将Python代码打包为Zip,然后使用提交脚本将其提交到集群,或者在代码本身中设置master和all Spark选项,这就不那么灵活了
发布于 2019-10-23 00:47:33
在version 2.2之前的较低版本的spark中,你需要安装spark,之后需要执行一些步骤。但在更高版本中,pip install pyspark就足够了。
https://stackoverflow.com/questions/58479357
复制相似问题