问如何在kafka上进行批量处理，连接生成的数据集？
EN

Stack Overflow用户

提问于 2022-07-27 14:28:52

回答 1查看 87关注 0票数 -1

假设我们有批作业生成记录到kafka中，并且有一个kafka连接集群消费记录并将它们转移到HDFS。我们希望以后能够在相同的数据上运行批处理作业，但我们希望确保批处理作业能够看到生产者生成的全部记录。什么是好的设计？

发布于 2022-07-27 18:38:36

您可以对数据运行任何MapReduce、Spark、Hive等查询，您将得到到目前为止已经写入HDFS的所有记录。它不会看到Sink从生产者那里消耗的数据，但这与Connect或HDFS无关，这是一个纯Kafka限制。

值得指出的是，阿帕奇皮诺是一个更好的组合卡夫卡流数据和具有批处理查询支持的地方。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73139801

复制

相似问题

问如何在kafka上进行批量处理，连接生成的数据集？EN