首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Jupyter + EMR + Spark -从本地计算机上的Jupyter笔记本连接到EMR群集

Jupyter + EMR + Spark -从本地计算机上的Jupyter笔记本连接到EMR群集
EN

Stack Overflow用户
提问于 2017-06-28 19:12:57
回答 1查看 1.2K关注 0票数 2

我是PySpark和电子病历的新手。

我尝试通过Jupyter notebook访问在EMR集群上运行的Spark,但遇到错误。

我使用以下代码生成SparkSession:

代码语言:javascript
复制
spark = SparkSession.builder \
    .master("local[*]")\
    .appName("Carbon - SingleWell parallelization on Spark")\
    .getOrCreate()

尝试跟随访问远程群集,但出现错误:

代码语言:javascript
复制
spark = SparkSession.builder \
    .master("spark://<remote-emr-ec2-hostname>:7077")\
    .appName("Carbon - SingleWell parallelization on Spark")\
    .getOrCreate()

错误:

代码语言:javascript
复制
Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.lang.NullPointerException
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:567)
    at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

任何帮助解决这个问题的人都将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2018-06-19 19:13:18

EMR集群已经为您的since EMR version 5.14.0配置了Jupyter和JupyterHub。

最有可能的是,使用一些额外的引导操作进行tune those provisioned services up要比连接本地进程来与EMR主节点对话更容易。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44800857

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档