我是PySpark和电子病历的新手。
我尝试通过Jupyter notebook访问在EMR集群上运行的Spark,但遇到错误。
我使用以下代码生成SparkSession:
spark = SparkSession.builder \
.master("local[*]")\
.appName("Carbon - SingleWell parallelization on Spark")\
.getOrCreate()尝试跟随访问远程群集,但出现错误:
spark = SparkSession.builder \
.master("spark://<remote-emr-ec2-hostname>:7077")\
.appName("Carbon - SingleWell parallelization on Spark")\
.getOrCreate()错误:
Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.lang.NullPointerException
at org.apache.spark.SparkContext.<init>(SparkContext.scala:567)
at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)任何帮助解决这个问题的人都将不胜感激。
发布于 2018-06-19 19:13:18
EMR集群已经为您的since EMR version 5.14.0配置了Jupyter和JupyterHub。
最有可能的是,使用一些额外的引导操作进行tune those provisioned services up要比连接本地进程来与EMR主节点对话更容易。
https://stackoverflow.com/questions/44800857
复制相似问题