我安装了databricks-connect 6.6.0,其Spark版本为2.4.6。到目前为止,我一直在使用databricks集群,但我正在尝试切换到使用本地spark会话进行单元测试。但是,每次我运行它时,它仍然显示在集群Spark UI上以及xxxxxx:4040上的本地Spark UI上。
我尝试过使用SparkConf()、SparkContext()和SQLContext()进行初始化,但它们都做同样的事情。我还分别设置了正确的SPARK_HOME、HADOOP_HOME和JAVA_HOME以及下载的winutils.exe,这些目录都没有空格。我也尝试过使用spark-submit从控制台和终端运行它。
这是我尝试过的一段示例代码:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local").appName("name").getOrCreate()
inp = spark.createDataFrame([('Person1',12),('Person2',14)],['person','age'])
op = inp.toPandas()我使用的是: Windows 10、数据库连接6.6.0、Spark 2.4.6、JDK 1.8.0_265、Python3.7、PyCharm社区2020.1.1
是否必须覆盖默认/全局spark会话才能启动本地spark会话?我该怎么做呢?我可能遗漏了一些东西--代码本身运行得很好,这只是一个本地与集群的问题。
提亚
发布于 2020-11-08 16:02:05
你不能让它们并排运行。我推荐使用Conda的两个虚拟环境。一个用于databricks-连接一个用于pyspark。然后根据需要在两者之间切换。
https://stackoverflow.com/questions/64721130
复制相似问题