我在Java/Scala中做过相当多的spark工作,只要我在maven pom.xml中添加所需的spark jar,我就可以直接从main()程序运行一些测试spark作业。
现在我开始使用pyspark了。我想知道我是否可以做类似的事情?例如,我正在使用pycharm运行一个wordCount作业:

如果我只是运行main()程序,我会得到以下错误:
Traceback (most recent call last):
File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 145, in <module>
profiler.run(file)
File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 84, in run
pydev_imports.execfile(file, globals, globals) # execute the script
File "/Users/edamame/PycharmProjects/myWordCount/myWordCount.py", line 6, in <module>
from pyspark import SparkContext
ImportError: No module named pyspark
Process finished with exit code 1我想知道如何在这里导入pyspark?因此,我可以像在Java/Scala中那样从main()程序运行一些测试作业。
我还尝试编辑解释器路径:

我的屏幕截图来自Run ->编辑配置:

最后是我的项目结构屏幕截图:

我错过了什么吗?谢谢!
发布于 2016-07-20 01:19:57
我终于按照这篇文章中的步骤让它工作了。这真的很有帮助!
https://medium.com/data-science-cafe/pycharm-and-apache-spark-on-mac-os-x-990af6dc6f38#.jk5hl4kz0
发布于 2017-09-14 03:35:26
我在项目结构中添加了$SPARK_HOME/python/lib下的py4j-x.x.x-src.zip和pyspark.zip (首选项> Project>项目结构,然后执行"+ Add Content Root"),它工作得很好。
PS: Pycharm已经从.bashrc/.bash_ $SPARK_HOME中设置的os环境中读取了$PYTHONPATH和$SPARK_HOME
https://stackoverflow.com/questions/38446913
复制相似问题