首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用PySpark读取Cloudera项目中的文件

用PySpark读取Cloudera项目中的文件
EN

Stack Overflow用户
提问于 2018-10-30 18:31:47
回答 1查看 1.4K关注 0票数 0

我的Cloudera项目中有一个文件位于"/home/cdsw/npi.json“之下。我尝试使用以下命令从我的“本地”CDSW项目中读取PySpark,但无法使用以下任何命令。它们都抛出"Path不存在:“错误。

代码语言:javascript
复制
npi = sc.read.format("json").load("file:///home/cdsw/npi.json")

npi = sc.read.format("json").load("file:/home/cdsw/npi.json")

npi = sc.read.format("json").load("home/cdsw/npi.json")
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-30 18:58:14

根据本文档,从HDFS访问数据

从终端将文件本地文件系统复制到HDFS。可以使用-put-copyFromLocal

代码语言:javascript
复制
hdfs dfs -put /home/cdsw/npi.json /destination

/destinationHDFS

然后,读取PySpark中的文件。

代码语言:javascript
复制
npi = sc.read.format("json").load("/destination/npi.json")

有关详细信息,请参阅:

代码语言:javascript
复制
put [-f] [-p] [-l] <localsrc> ...  <destination> 

将文件从本地文件系统复制到fs中。如果文件已经存在,则复制失败,除非给出-f标志。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53070737

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档