首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我应该使用状态计算吗?火花流状态计算解释

我应该使用状态计算吗?火花流状态计算解释
EN

Stack Overflow用户
提问于 2016-07-21 14:10:05
回答 1查看 100关注 0票数 0

下面是我的例子:我从不同的设备接收数据,这些设备有自己的签名、时间戳和标志。然后,我使用一个(flag==SAVE_VALUE)函数在文件中过滤foreachRDD,但前提是它必须通过以下条件:

代码语言:javascript
复制
(it is the first time I receive this signature)
OR
(I already have this signature && the timestamp is older than an hour)

这一点,直到我在一个本地环境中,意味着我使用一个Map,在那里我存储所有的in和最后收到的时间戳。现在,我想把这个逻辑像火花一样移动。我怎么发动汽车呢?

我觉得这是一个有状态的Dstream的例子,但我不能完全理解:

  • 我应该如何将类似于地图的rdd存储在Dstream中?或者如何创建一个"map RDD“
  • 我如何比较新的数据到达?
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-21 14:24:08

看看mapWithState(),这正是你想要的。

StateSpecFunction中,每当同一键的新值到达时,就可以确定是否要更新、保留或删除当前状态。您可以访问当前状态和新状态,因此可以在这两种状态之间进行任何类型的比较。

它还内置了对超时的支持,并可以将其划分为多个执行程序。

您可以通过对stateSnapshots()的返回值调用mapWithState()来访问全局映射。否则,返回值将由每批StateSpecFunction的返回值确定。

mapWithState()是在Spark1.6中添加的,在此之前,有一个名为updateStateByKey()的类似函数,它所做的基本相同,但在较大的数据集上执行得更差。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38506562

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档