首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何清理星火结构流中积累的检查点文件?

如何清理星火结构流中积累的检查点文件?
EN

Stack Overflow用户
提问于 2020-09-27 10:48:00
回答 1查看 1.6K关注 0票数 1

我为SparkContext添加了检查点,并为长期运行的火花结构化流作业编写了对kafka数据流的查询。

代码语言:javascript
复制
spark.sparkContext.setCheckpointDir("/tmp/checkpoint")

...

val monitoring_stream = monitoring_df.writeStream
                              .trigger(Trigger.ProcessingTime("120 seconds"))
                              .option("checkpointLocation", "s3a://spark-checkpoint/checkpointfiles")
                             .foreachBatch { (batchDF: DataFrame, batchId: Long) =>
                                if(!batchDF.isEmpty) 
                                {
                                }
                             .start()
                             .awaitTermination()

火花作业运行稳定。但是,我注意到检查点文件是在HDFS和S3中积累的,没有自动清理。我看到这些文件不断地占用存储空间。是否有办法为这些检查点文件配置保留时间以使其自动删除?还是需要运行某个cron作业来手动删除它们?如果我手动删除它们,会不会影响正在进行的火花作业?谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-09-27 17:21:07

spark.cleaner.referenceTracking.cleanCheckpoints需要设置为true,默认值为false。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64087582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档