下面是我的例子:我从不同的设备接收数据,这些设备有自己的签名、时间戳和标志。然后,我使用一个(flag==SAVE_VALUE)函数在文件中过滤foreachRDD,但前提是它必须通过以下条件:
(it is the first time I receive this signature)
OR
(I already have this signature && the timestamp is older than an hour)这一点,直到我在一个本地环境中,意味着我使用一个Map,在那里我存储所有的in和最后收到的时间戳。现在,我想把这个逻辑像火花一样移动。我怎么发动汽车呢?
我觉得这是一个有状态的Dstream的例子,但我不能完全理解:
发布于 2016-07-21 14:24:08
看看mapWithState(),这正是你想要的。
在StateSpecFunction中,每当同一键的新值到达时,就可以确定是否要更新、保留或删除当前状态。您可以访问当前状态和新状态,因此可以在这两种状态之间进行任何类型的比较。
它还内置了对超时的支持,并可以将其划分为多个执行程序。
您可以通过对stateSnapshots()的返回值调用mapWithState()来访问全局映射。否则,返回值将由每批StateSpecFunction的返回值确定。
mapWithState()是在Spark1.6中添加的,在此之前,有一个名为updateStateByKey()的类似函数,它所做的基本相同,但在较大的数据集上执行得更差。
https://stackoverflow.com/questions/38506562
复制相似问题