官方指南说:
如果在本地文件系统上使用路径,则还必须在工作节点上的同一路径上访问该文件。要么将文件复制到所有员工,要么使用网络挂载的共享文件系统。
星火需要某种类型的分布式文件系统来洗牌或什么的吗?或者,我是否可以跨所有节点复制输入,而不必费心使用NFS、HDFS等?
发布于 2015-06-30 20:58:44
星星之火不依赖于混乱的文件系统。与传统的地图缩减不同,Spark不需要写入HDFS (或类似的)系统,而是通过重新计算节点上的任何数据来跟踪数据的谱系,并在节点失败时使用它来实现弹性。
https://stackoverflow.com/questions/31141308
复制相似问题