我已经安装了Scala和Spark,并且可以正常工作,但是PySpark不工作。下面是我得到的输出:
user@ubuntu:~/spark$ pyspark
Python 2.7.6 (default, Jun 22 2015, 17:58:13)
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Traceback (most recent call last):
File "/home/user/spark/python/pyspark/shell.py", line 30, in <module>
import pyspark
File "pyspark.py", line 1, in <module>
NameError: name 'sc' is not defined这是我的.bashrc
export SPARK_HOME=/home/user/spark
export PATH=$PATH:$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH我做错了什么?
谢谢
发布于 2016-04-18 06:20:22
看起来你有一个导入冲突。在path中的某个位置,有一个在实际pyspark包之前选择的pyspark.py文件。
发布于 2016-04-29 14:37:43
我无法重现这个问题,但仍然不明白为什么需要设置SPARK_HOME、PATH和PYTHONPATH。如果pyspark以path开头,那么SparkContext应该已经创建好了。
如果您从ipython或python开始,您可以使用findspark包来定位Spark并创建SparkContext
$ python
>>> import findspark
>>> findspark.init('/home/user/spark')
>>> from pyspark import SparkContext
>>> sc = SparkContext('local[4]', 'myapp')https://stackoverflow.com/questions/36682553
复制相似问题