首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >更新中的管道

更新中的管道
EN

Stack Overflow用户
提问于 2022-03-14 11:18:59
回答 2查看 454关注 0票数 0

我正在为数据工程师考试学习,在练习中,我发现了以下问题:

您正在操作流云数据流管道。您的工程师有一个新版本的管道,有一个不同的窗口算法和触发策略。您希望用新版本更新正在运行的管道。您希望确保更新过程中不会丢失任何数据。你应该怎么做?

  • 通过将--更新选项--jobName设置为现有作业名称,更新管道错误。
  • 更新管道错误,将--update选项设置为一个新的唯一作业名。
  • 使用Cancel选项停止Cloud管道。使用更新的代码创建一个新的Cloud作业。
  • 停止使用排水选项的云数据流管道。使用更新的代码创建一个新的Cloud作业。

在正式文档中:“我们建议您只尝试对管道窗口进行较小的更改,例如更改固定时间或滑动时间窗口的持续时间。对窗口或触发器进行重大更改,如更改窗口算法,可能会对管道输出产生不可预测的结果。”

因此,我不知道答案是A还是D,我认为当我们不想丢失数据时,A更合适。

EN

回答 2

Stack Overflow用户

发布于 2022-03-14 18:19:06

答案是A,因为问题有一个先决条件,即在更新过程中不丢失任何数据。来自更新上的正式文档

替换作业保存来自先前作业的任何中间状态数据,以及当前“正在运行”的前一作业中的任何缓冲数据记录或元数据。例如,在等待窗口解析时,管道中的某些记录可能会被缓冲。

这意味着数据将被临时保存(即缓冲),直到新管道从旧作业状态运行为止。新管道运行后,缓冲数据将发送到新作业。

此外,文档还声明了更新的作业名称必须与以前的工作相匹配,因此它不是B。

票数 0
EN

Stack Overflow用户

发布于 2022-10-26 18:04:31

google文档确实提到,如果窗口或触发算法发生变化,您可能会有不可预测的结果。这个问题确实提到了窗口和触发算法的改变。安全赌注是D。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71466902

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档