我正在尝试按照我已经读过的一些说明来安装graphframes包。
我的第一个尝试是在命令行中执行此操作:
pyspark--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11这很好地工作,并且在机器中成功地完成了下载。
但是,当我尝试在我的Jupyter笔记本中导入该包时,它显示以下错误:
can't find module 'graphframes'我的第一次尝试是将包文件夹/graphframes复制到/site-packages,但我无法使用简单的cp命令完成此操作。
我是新手使用spark,我确信我错过了配置的某些部分……
你能帮帮我吗?
发布于 2018-05-11 13:58:40
这就是对我有效的方法。
提取graphframes-xxx-xxx-xxx.jar文件的内容。你应该得到像这样的东西
graphframes
| -- examples
|-- ...
| -- __init__.py
| -- ...压缩整个文件夹(不仅仅是内容),然后随意命名。我们就叫它graphframes.zip吧。
然后,使用以下命令运行pyspark shell
pyspark --py-files graphframes.zip \
--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11您可能需要这样做
sc.addPyFile('graphframes.zip')在此之前
import graphframes发布于 2019-09-04 21:52:42
最简单的方法是使用pyspark启动jupyter,并从pyspark启动jupyter。
只需打开终端并设置两个环境变量,然后使用graphframes包启动pyspark
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook
pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11这样做的好处还在于,如果以后想要通过spark-submit运行代码,可以使用相同的启动命令
https://stackoverflow.com/questions/50242268
复制相似问题