首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在AWS上使用Apache-Spark加载数据

在AWS上使用Apache-Spark加载数据
EN

Stack Overflow用户
提问于 2015-07-23 13:39:55
回答 2查看 820关注 0票数 0

我正在使用亚马逊网络服务(AWS)-EC2上的Apache-Spark来加载和处理数据。我已经创建了一个主节点和两个从节点。在主节点上,我有一个目录data,其中包含要处理的所有csv格式的数据文件。

现在,在提交驱动程序(这是我的python代码)运行之前,我们需要将数据目录data从主节点复制到所有从节点。据我所知,我认为这是因为每个从节点都需要知道数据文件在其本地文件系统中的位置,以便能够加载数据文件。例如,

代码语言:javascript
复制
from pyspark import SparkConf, SparkContext

### Initialize the SparkContext
conf = SparkConf().setAppName("ruofan").setMaster("local")
sc = SparkContext(conf = conf)

### Create a RDD containing metadata about files in directory "data"
datafile = sc.wholeTextFiles("/root/data")  ### Read data directory 

### Collect files from the RDD
datafile.collect() 

当每个从节点运行任务时,它从其本地文件系统加载数据文件。

但是,在提交应用程序运行之前,我们还必须使用$ ./ephemeral-hdfs/bin/hadoop fs -put /root/data/ ~将目录data放入Hadoop Distributed File System (HDFS)。

现在我对这个过程感到困惑。每个从节点是否从自己的本地文件系统或HDFS加载数据文件?如果它从本地文件系统加载数据,为什么我们需要将data放入HDFS?如果有人能帮我,我将不胜感激。

EN

回答 2

Stack Overflow用户

发布于 2016-06-01 22:34:24

只是为了澄清可能会在这篇文章中遇到的其他人。

我相信您的困惑是由于没有在文件位置提供协议。在执行以下代码行时:

代码语言:javascript
复制
### Create a RDD containing metadata about files in directory "data"
datafile = sc.wholeTextFiles("/root/data")  ### Read data directory 

Spark假定文件路径//data Spark在HDFS中。换言之,它在hdfs:///root/data.中查找文件

您只需要将文件放在一个位置,或者在每个节点的本地位置(就存储效率而言不是最有效的位置),或者放在分布在节点上的HDFS中。

如果要从本地读取文件,请使用file:///path/to/local/file.如果您希望使用HDFS,请使用hdfs:///path/to/hdfs/file.

希望这能有所帮助。

票数 1
EN

Stack Overflow用户

发布于 2015-07-23 15:00:04

一个快速建议是从S3加载csv,而不是将其放在本地。

下面是一个样例scala代码片段,可用于从S3加载一个存储桶

代码语言:javascript
复制
val csvs3Path = "s3n://REPLACE_WITH_YOUR_ACCESS_KEY:REPLACE_WITH_YOUR_SECRET_KEY@REPLACE_WITH_YOUR_S3_BUCKET"
val dataframe = sqlContext.
                    read.
                    format("com.databricks.spark.csv").
                    option("header", "true").
                    load(leadsS3Path)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31578986

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档