在Spark的FAQ中,它明确表示不必使用HDFS:
我需要Hadoop来管理火场吗? 不是,但如果您在集群上运行,您将需要某种形式的共享文件系统(例如,NFS安装在每个节点的相同路径上)。如果您有这种类型的文件系统,您只需在独立模式下部署Spark即可。
那么,如果我不打算使用Hadoop MapReduce,那么与其他分布式文件系统(如NFS)相比,将Apache与HDFS结合使用有哪些优缺点呢?如果我使用NFS而不是HDFS来存储节点(用于检查点、洗牌溢出等),我会丢失一个重要的特性吗?
发布于 2016-04-14 07:35:16
在经历了几个月的NFS和HDFS之后,我现在可以回答我自己的问题了:
NFS允许查看/更改远程计算机上的文件,就好像它们是存储在本地机器上一样。HDFS也可以这样做,但它是分布式的(与NFS不同),而且还具有容错性和可伸缩性。
使用NFS的优点是设置简单,所以我可能会将它用于QA环境或小型集群。HDFS的优势当然是它的容错性,但更大的优势,IMHO,是当HDFS与火花节点共存时能够利用局部性,这为检查点、洗牌溢出等提供了最佳的性能。
https://stackoverflow.com/questions/32542719
复制相似问题