首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从新位置进行Spark读取保持输出目录不变

从新位置进行Spark读取保持输出目录不变
EN

Stack Overflow用户
提问于 2021-05-01 17:07:16
回答 1查看 43关注 0票数 1

我有一个spark作业,它从源s3://bucket/ source -1文件夹读取(使用结构化流式API),并写入s3://bucket/destination-1文件夹。检查点保存在s3://bucket/checkpoint-1。

现在,我希望从s3://bucket/source-2读取具有相同模式的数据(检查点位于s3://bucket/checkpoint-2),但我希望将其附加到相同的s3://bucket/destination-2文件夹中。有可能吗?

EN

回答 1

Stack Overflow用户

发布于 2021-05-01 18:29:38

是的,这当然可以写入到相同的位置。但是你需要考虑不同的事情,比如:

  • 你使用什么数据格式作为输出(拼接,增量,其他...)?
  • 这两个流作业是否同时运行?在为目标编写data?
  • (potentially)分区方案时,可能会发生冲突吗?
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67344565

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档