首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用spark访问hdfs中的csv文件

使用spark访问hdfs中的csv文件
EN

Stack Overflow用户
提问于 2015-06-12 09:37:12
回答 3查看 1.9K关注 0票数 1

我使用hadoop -put命令将一个csv文件放入hdfs文件系统中。现在我需要使用电火花csv访问csv文件。它的格式类似于

代码语言:javascript
复制
`plaintext_rdd = sc.textFile('hdfs://x.x.x.x/blah.csv')`

我是hdfs的新手。如何找到放置在hdfs://x.x.x.x中的地址?

这是我输入的输出

hduser@remus:~$ hdfs dfs -ls /input

代码语言:javascript
复制
Found 1 items
-rw-r--r--   1 hduser supergroup        158 2015-06-12 14:13 /input/test.csv

任何帮助都是非常感谢的。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-06-12 09:52:23

您需要在HDFS中提供文件的完整路径,您提到的hadoop配置核心站点或hdfs-站点中将提到url。

有关url的详细信息,请查看core-site.xml & hdfs-site.xml。

查找任何url的简单方法是从浏览器访问hdfs并获取路径。

代码语言:javascript
复制
If you are using absolute path in your file system use file:///<your path>
票数 1
EN

Stack Overflow用户

发布于 2015-06-12 12:43:49

尝试指定不带hdfs://的绝对路径

代码语言:javascript
复制
plaintext_rdd = sc.textFile('/input/test.csv')

在同一个集群上运行HDFS时,可以使用hdfs://作为默认FS。

票数 0
EN

Stack Overflow用户

发布于 2018-10-05 12:39:38

通过指向可以读取csv文件的包启动火花外壳或火花提交,如下所示:

代码语言:javascript
复制
spark-shell  --packages com.databricks:spark-csv_2.11:1.2.0

在spark代码中,您可以如下所示读取csv文件:

代码语言:javascript
复制
val data_df = sqlContext.read.format("com.databricks.spark.csv")
              .option("header", "true")
              .schema(<pass schema if required>)
              .load(<location in HDFS/S3>)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30799891

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档