首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在spark集群中维护全局信息?

如何在spark集群中维护全局信息?
EN

Stack Overflow用户
提问于 2015-03-28 16:36:32
回答 1查看 268关注 0票数 0

看起来星火中的信息依赖于SparkContext。

如果它停止(应用程序结束,并调用sc.stop()),则有关此应用程序的所有信息都将消失。

我的问题是,我如何永久地维护一些信息(从Spark集群开始到集群停止)?

例如,我想计算每个应用程序的jar文件的MD5。我已经尝试在spark源代码中添加一个新类来维护此信息。但是每次提交新的申请时,这个类都会被初始化,所以信息不能被保留。

我还尝试在对象org.apache.spark.depoly.master.Master中添加一个HashMap (我认为这在所有集群的生命周期中都是有效的),但即使这样,每次提交新的应用程序时,它也会被初始化。

那么,如何在Spark集群中维护全局信息呢?创建一个新类(如何创建,在哪里创建)?或者添加Map成员(在哪个类或对象中)?

EN

回答 1

Stack Overflow用户

发布于 2015-03-28 20:05:29

使RDD跨应用程序实例持久的方法是使用例如saveAsObjectFile()将其保存到文件系统

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29315196

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档