文章/答案/技术大牛

发布

社区首页 >问答首页 >数据流的工人们没有旋转起来。

问数据流的工人们没有旋转起来。
EN

Stack Overflow用户

提问于 2020-07-27 03:56:52

回答 1查看 319关注 0票数 0

我有一个云数据流管道，如下所示：

从云PubSub读取
进行一些转换并编写CloudSql和GCS

最初没有设置任何最大的work和num，它可以很好地工作，但是需要很长时间来处理大型数据集，然后我指定了一些maxNumWorkers，比如60和numWorkers为6，这很好，但是我们在处理结束时丢失了很多数据

我们也试过这个

-自动标度算法=基于吞吐量的--max_num_workers=5

仍然工作从一个工人开始，并且不会自动缩放。

然而，数据流工人似乎并不是在自动旋转和平衡负载。

google-cloud-dataflow

apache-beam

dataflow

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-27 09:35:03

我建议您启用数据流流引擎特性，因为与用于数据流工作人员处理和自动标度的默认架构相比，它为您的管道提供了更响应的自动标度性能。

存在一个与云数据流的吞吐量和输入行为相关的问题。您可以跟踪改进的这里。请点击+1，使它更明显的数据流工程团队。

此外，您还可以检查相关资源是否存在配额问题。对于每个作业，Dataflow创建一个实例组。worker VM通过实例组启动，每个worker VM都获取资源。所有这些资源(例如实例组、IP地址、CPU等)都可以受到配额的限制。跟着文档。我发现的是类似的所以线与来自数据流工程师的答案。

我希望你能找到这些有用的信息。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63108479

复制

相似问题

问数据流的工人们没有旋转起来。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据流的工人们没有旋转起来。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据流的工人们没有旋转起来。
EN