假设我们有批作业生成记录到kafka中,并且有一个kafka连接集群消费记录并将它们转移到HDFS。我们希望以后能够在相同的数据上运行批处理作业,但我们希望确保批处理作业能够看到生产者生成的全部记录。什么是好的设计?
发布于 2022-07-27 18:38:36
您可以对数据运行任何MapReduce、Spark、Hive等查询,您将得到到目前为止已经写入HDFS的所有记录。它不会看到Sink从生产者那里消耗的数据,但这与Connect或HDFS无关,这是一个纯Kafka限制。
值得指出的是,阿帕奇皮诺是一个更好的组合卡夫卡流数据和具有批处理查询支持的地方。
https://stackoverflow.com/questions/73139801
复制相似问题