首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google Cloud Datalab上的pyspark

Google Cloud Datalab上的pyspark
EN

Stack Overflow用户
提问于 2016-11-22 16:25:51
回答 3查看 1.8K关注 0票数 1

如何在google-cloud-datalab笔记本中导入pyspark?即使在节点上设置了PYTHONPATH,SPARK_HOME,它也不能工作?我错过了什么吗?

代码语言:javascript
复制
ImportErrorTraceback (most recent call last)  
  <ipython-input-4-c15ae3402d12> in <module>()
     ----> 1 import pyspark

ImportError: No module named pyspark
EN

回答 3

Stack Overflow用户

发布于 2016-11-23 12:02:06

正如Fematich所说,不幸的是,它还没有得到支持。但是,Datalab is open source,如果你愿意,你可以修改Dockerfile文件来添加pyspark并构建你自己的镜像。如果你认为其他人也可能对此感兴趣,你也可以发送一个pull请求。

票数 1
EN

Stack Overflow用户

发布于 2017-07-17 20:40:53

您可以通过初始化操作在Cloud Dataproc上方便地运行Datalab:

https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/datalab

这将允许您与pySpark环境进行交互。

或者,您可以编辑Dataproc Docker镜像以包含spark (使用pyspark)。这将允许您在任何地方(本地或虚拟机)使用spark运行Datalab。

票数 1
EN

Stack Overflow用户

发布于 2016-11-22 22:14:55

Datalab目前还不支持(py)Spark (也可以查看他们的roadmap)。在Google Cloud平台上,目前最简单的选择是使用Jupyter笔记本部署DataProc集群,请参阅文档here

请注意,Dataproc团队也在使用StackOverflow,因此他将能够为您提供有关路线图的更多信息。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40736956

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档