首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >与其他分布式存储相比,在HDFS中使用Apache Spark

与其他分布式存储相比,在HDFS中使用Apache Spark
EN

Stack Overflow用户
提问于 2015-09-12 19:15:12
回答 1查看 5.2K关注 0票数 14

在Spark的FAQ中,它明确表示不必使用HDFS:

我需要Hadoop来管理火场吗? 不是,但如果您在集群上运行,您将需要某种形式的共享文件系统(例如,NFS安装在每个节点的相同路径上)。如果您有这种类型的文件系统,您只需在独立模式下部署Spark即可。

那么,如果我不打算使用Hadoop MapReduce,那么与其他分布式文件系统(如NFS)相比,将Apache与HDFS结合使用有哪些优缺点呢?如果我使用NFS而不是HDFS来存储节点(用于检查点、洗牌溢出等),我会丢失一个重要的特性吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-04-14 07:35:16

在经历了几个月的NFS和HDFS之后,我现在可以回答我自己的问题了:

NFS允许查看/更改远程计算机上的文件,就好像它们是存储在本地机器上一样。HDFS也可以这样做,但它是分布式的(与NFS不同),而且还具有容错性和可伸缩性。

使用NFS的优点是设置简单,所以我可能会将它用于QA环境或小型集群。HDFS的优势当然是它的容错性,但更大的优势,IMHO,是当HDFS与火花节点共存时能够利用局部性,这为检查点、洗牌溢出等提供了最佳的性能。

票数 16
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32542719

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档