我经常使用HDFS和Kafka,我注意到Kafka比HDFS更可靠。所以现在使用Spark-structured-streaming,我很惊讶检查点只有HDFS。用Kafka来勾点会更快更可靠。那么,有没有可能在没有HDFS的情况下使用spark structured?奇怪的是,我们只能在Kafka中将HDFS用于流数据。或者,有没有可能告诉斯帕克忘记ChekpPointing并在程序中管理它?
Spark 2.4.7
谢谢
发布于 2021-05-08 13:46:35
您不受使用HDFS路径作为检查点位置的限制。
根据Spark Structured Streaming Guide中的Recovering from Failures with Checkpointing一节,路径必须是“一个与HDFS兼容的文件系统”。因此,也可以使用其他文件系统。但是,强制要求所有执行者都有权访问该文件系统。例如,在集群中的边缘节点上选择本地文件系统可能会在本地模式下工作,但是,在集群模式下这可能会导致问题。
此外,不可能让Kafka自己处理Spark Structured Streaming的偏移位置。我在How to manually set group.id and commit kafka offsets in spark structured streaming?上的回答中已经更深入地解释了这一点。
https://stackoverflow.com/questions/67432490
复制相似问题