如何从dstream窗口返回单个rdd ?:
my_dstream_window : somedstream.window(3mins,1min)假设上面的my_dstream_window包含{rdd1,rdd2,rdd3},我想对
rdd1.Operation(rdd2).Operation(rdd3)
意图:- my_dstream_window有重复。我可以使用reduceByKey为这个流删除它们,但是my_dstream_window的下一个片段将有重叠的键值对和旧的键值对。
因此,基本上,我的任务是保存不同的rdd键值对,只需从以前的dstream中删除任何重叠的键值。
请建议。
发布于 2016-06-09 17:03:22
在DStream上有一个没有文档化的方法,让我们获取属于一段时间的RDD:
def slice(fromTime: Time, toTime: Time): Seq[RDD[T]] 这是由window函数在内部使用的,但它也公开为公共API。要使用它,我们需要跟踪时间,因为它需要一个时间间隔作为参数。它返回属于该间隔的RDD序列。(以前通过显式或通过调用窗口函数来“记住”)
https://stackoverflow.com/questions/37732039
复制相似问题