首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >云数据流是如何工作的以及如何管理数据流作业

云数据流是如何工作的以及如何管理数据流作业
EN

Stack Overflow用户
提问于 2021-05-05 23:19:04
回答 1查看 757关注 0票数 0

最近,我使用Dataflow对数据进行批处理,并由于IO错误("IOError:设备上没有空间“)而遇到管道中断。

工作者节点上的磁盘扩展解决了这个问题,但要处理的数据量并不大,磁盘不太可能耗尽。

因此,我想知道数据流是如何工作的,这样我才能更好地理解这一事件。

我的问题如下。

  • 云数据流的体系结构是什么?我想知道架构和文档来了解它。
  • 数据流作业在启动前的流程是什么?

我猜想管道和作业是在托管的Kubernetes集群上管理的,作业是在用户的VM实例上执行的,因为数据流日志包括kubelet和docker日志。

如有任何资料,将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-05-06 07:32:05

  1. 云数据流的体系结构是什么?

Google Dataflow Apache 运行程序之一,它构建在Google (GCE)之上,即当您运行数据流作业时,它是在GCE实例上执行的。在作业启动期间,将Apache 安装在每个工作人员以及您指定的其他库上,然后执行它。对于数据流作业,可以指定GCE虚拟机的类型和硬盘大小。当然,取决于数据处理过程,工人VM的数量可以在时间期间更改。

还有一个名为Dataflow Shuffle的特性,它可以用于洗牌阶段,在像GroupByKey这样的转换中,组合是在托管服务上执行的(当然,在底部总是有一些VM,但是从您那里可以看到隐藏的E 227),而不是在e 128数据流工作VMe 229上。这被洗牌可以显着的更快的。

  1. 启动前数据流作业的流程是什么?

如果您想了解(数据流作业的流程),我建议您通过这个链接

附加信息

如果您想了解编程模型 for Apache ,只需单击这里并查看它。

然后,Google添加了一个新的multi-language Dataflow (Runner v2)管道,该管道由新的、更快的体系结构启用。如果您想探索Runner v2,只需单击这里并浏览它。

请查找以下所有链接:

  1. https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline
  2. https://cloud.google.com/dataflow/docs/concepts/beam-programming-model
  3. https://cloud.google.com/blog/products/data-analytics/multi-language-sdks-for-building-cloud-pipelines
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67409934

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档