首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >火花基本面

火花基本面
EN

Stack Overflow用户
提问于 2015-08-24 14:42:56
回答 4查看 773关注 0票数 1

我对火花很陌生..。在复习基本面时,我不太清楚一些基本的事情:

查询1.对于分布式处理--可以不使用HDFS - Hadoop文件系统而在集群上工作(比如创建自己的分布式文件系统),还是需要一些基本的分布式文件系统,如HDFS、GPFS等。

查询2.如果我们已经在HDFS中加载了一个文件(作为分布式块),那么Spark将再次将其转换为块,并在其级别上重新分发(用于分布式处理),或者只使用Haddop HDFS集群中的块分发。

查询3.除了定义DAG之外,SPARK还像MapReduce那样创建分区,并将分区洗牌到还原器节点以进行进一步的计算?我也对此感到困惑,在DAG创建之前,很明显,在每个工作节点上工作的火花执行器将数据块作为RDD加载到内存和计算中,按照DAG .但是,按照键对数据进行分区,并将其带到将执行还原器任务的其他节点(就像mapreduce那样),在内存中是如何完成的呢?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2015-08-24 17:21:11

这最好作为单独的问题提出来,问题3很难理解。总之:

  1. 不,星火不需要分布式文件系统。
  2. 默认情况下,Spark将为每个HDFS块创建一个分区,并在可能的情况下与数据共同定位计算。
  3. 你问的是洗牌的事。洗牌在映射器上创建块,还原器将从中提取。spark.shuffle.memoryFraction参数控制要分配多少内存用于洗牌块文件。(违约时为20%)spark.shuffle.spill参数控制内存耗尽时是否将洗牌块泄漏到本地磁盘。
票数 1
EN

Stack Overflow用户

发布于 2015-12-12 12:35:11

查询1.对于分发处理--如果没有HDFS,火花可以工作吗?

对于分布式处理,Spark不需要HDFS。但是它可以从HDFS系统读取/写入数据。对于某些用例,它可能会将数据写入HDFS。对于原始排序世界记录程序,它使用HDFS对数据进行排序,而不是使用回忆录。

storage不提供分布式存储。但是与HDFS的集成是存储的一种选择。但是Spark可以使用其他存储系统,如Cassnadra等。有关更多细节,请参阅本文:https://gigaom.com/2012/07/11/because-hadoop-isnt-perfect-8-ways-to-replace-hdfs/

查询2.如果我们已经在HDFS中加载了一个文件(作为分布式块),那么Spark将再次将其转换为块,并在其级别上重新分发

我同意丹尼尔·达博的回答。星火将为每个HDFS块创建一个分区。

查询3:关于洗牌

根据数据的大小,洗牌将在内存中进行,也可以使用磁盘(例如,原始排序)或两者兼用。看看这个在星火洗牌上的出色的文章

这个没问题。如果您没有足够的内存来存储整个“map”输出,怎么办?您可能需要将中间数据泄漏到磁盘。参数spark.shuffle.spill负责启用/禁用溢出,默认情况下启用溢出。 在将“map”输出溢出到磁盘之前,可用于存储“map”输出的内存量为“JVM大小”* spark.shuffle.memoryFraction * spark.shuffle.safetyFraction,默认值为“JVM大小”* 0.2 * 0.8 =“JVM大小”* 0.16。

票数 0
EN

Stack Overflow用户

发布于 2016-01-27 11:26:52

查询1。是的,它也可以与其他人一起工作。Spark与RDDs一起工作,如果您有相应的RDD实现--即它是.When --您实际上通过在HDFS中打开一个文件来创建RDD,它本身就创建了一个HADOOP,它具有用于理解HDFS的实现,如果您编写了自己的分布式文件系统,您可以为相同的实现编写自己的实现,并实例化它所完成的类。但是编写连接器RDD到我们自己的DFS是一个挑战。有关更多信息,您可以查看星火代码中的RDD接口。

查询2.它不会重新创建,相反,我的HADOOP/HDFS连接器--它知道块在哪里-- .It也将尝试使用相同的纱线节点来运行jvm任务进行处理。

查询3.对此不确定

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32185134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档