我想使用Python在Apache上运行一个基于ALS算法的电影推荐应用,我使用的是Spark2.2.0Hadoop2.7,当我想使用这个命令运行应用程序时,我有一个主程序和两个工作人员。
Spark-submit —master Spark://192.168.190.132:7077 —total-executor-cores 8 —executor-memory 2g engine.py我收到错误,它说ratings.csv文件不存在(我检查了地址,一切都是正确的)
错误图片
https://i.stack.imgur.com/dgK2Q.jpg
但是当我使用这个命令Spark-submit app.py时,它可以工作,但是过了一段时间就失败了。
我不是在使用HDFS,而是在本地加载数据集,是否需要将数据集复制到所有工作节点?
发布于 2019-08-18 23:46:20
您需要将数据集上传到HDFS,如果您想作为火花独立的spark.using webui工作,所有工作人员nodes.using HDFS -put都要上传到hdfs上。
https://stackoverflow.com/questions/57545743
复制相似问题