如何在google-cloud-datalab笔记本中导入pyspark?即使在节点上设置了PYTHONPATH,SPARK_HOME,它也不能工作?我错过了什么吗?
ImportErrorTraceback (most recent call last)
<ipython-input-4-c15ae3402d12> in <module>()
----> 1 import pyspark
ImportError: No module named pyspark发布于 2016-11-23 12:02:06
正如Fematich所说,不幸的是,它还没有得到支持。但是,Datalab is open source,如果你愿意,你可以修改Dockerfile文件来添加pyspark并构建你自己的镜像。如果你认为其他人也可能对此感兴趣,你也可以发送一个pull请求。
发布于 2017-07-17 20:40:53
您可以通过初始化操作在Cloud Dataproc上方便地运行Datalab:
https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/datalab
这将允许您与pySpark环境进行交互。
或者,您可以编辑Dataproc Docker镜像以包含spark (使用pyspark)。这将允许您在任何地方(本地或虚拟机)使用spark运行Datalab。
https://stackoverflow.com/questions/40736956
复制相似问题