我的Cloudera项目中有一个文件位于"/home/cdsw/npi.json“之下。我尝试使用以下命令从我的“本地”CDSW项目中读取PySpark,但无法使用以下任何命令。它们都抛出"Path不存在:“错误。
npi = sc.read.format("json").load("file:///home/cdsw/npi.json")
npi = sc.read.format("json").load("file:/home/cdsw/npi.json")
npi = sc.read.format("json").load("home/cdsw/npi.json")发布于 2018-10-30 18:58:14
根据本文档,从HDFS访问数据
从终端将文件从本地文件系统复制到HDFS。可以使用-put或-copyFromLocal。
hdfs dfs -put /home/cdsw/npi.json /destination/destination在HDFS。
然后,读取PySpark中的文件。
npi = sc.read.format("json").load("/destination/npi.json")有关详细信息,请参阅:
放
put [-f] [-p] [-l] <localsrc> ... <destination> 将文件从本地文件系统复制到fs中。如果文件已经存在,则复制失败,除非给出-f标志。
https://stackoverflow.com/questions/53070737
复制相似问题