首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >可以在没有HDFS的情况下使用Spark Structured吗?

可以在没有HDFS的情况下使用Spark Structured吗?
EN

Stack Overflow用户
提问于 2021-05-07 17:40:38
回答 1查看 47关注 0票数 2

我经常使用HDFS和Kafka,我注意到Kafka比HDFS更可靠。所以现在使用Spark-structured-streaming,我很惊讶检查点只有HDFS。用Kafka来勾点会更快更可靠。那么,有没有可能在没有HDFS的情况下使用spark structured?奇怪的是,我们只能在Kafka中将HDFS用于流数据。或者,有没有可能告诉斯帕克忘记ChekpPointing并在程序中管理它?

Spark 2.4.7

谢谢

EN

回答 1

Stack Overflow用户

发布于 2021-05-08 13:46:35

您不受使用HDFS路径作为检查点位置的限制。

根据Spark Structured Streaming Guide中的Recovering from Failures with Checkpointing一节,路径必须是“一个与HDFS兼容的文件系统”。因此,也可以使用其他文件系统。但是,强制要求所有执行者都有权访问该文件系统。例如,在集群中的边缘节点上选择本地文件系统可能会在本地模式下工作,但是,在集群模式下这可能会导致问题。

此外,不可能让Kafka自己处理Spark Structured Streaming的偏移位置。我在How to manually set group.id and commit kafka offsets in spark structured streaming?上的回答中已经更深入地解释了这一点。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67432490

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档