我正在尝试阅读另一个团队建立的Kafka主题。该主题在多个分区之间保持平衡。我的意思是,每一个新行都被发送到一个单独的主题。一条消息是多行,因此消息在两个分区之间拆分。
例如:
分区1:
"message1: details1 details1“
"message2: details2 details2“
分区2:
"details1 details1“
"details2 details2“
当我使用createDirectStream(ssc, kafkaparams, fromoffsets, messagehandler)阅读该主题时,我会按照上面所示的顺序获取RDDs。
我想做的是:
"message1: details1 details1“
"details1 details1“
"message2: details2 details2“
"details2 details2“
感谢您对我的帮助。
发布于 2018-11-15 17:32:54
如果保证每个分区内的排序,以便分区1中的元素x与分区2中的元素x相关,则可以根据分区编号和每个分区迭代器(zipWithIndex)中的元素索引对RDD元素进行排序。
这将允许您跨分区“重新同步”
https://stackoverflow.com/questions/36575484
复制相似问题