首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么数据流使用其他磁盘?

为什么数据流使用其他磁盘?
EN

Stack Overflow用户
提问于 2018-03-28 04:20:50
回答 2查看 853关注 0票数 1

当我看到我的数据流计算引擎实例的细节时,我可以看到正在使用的两类磁盘- (1)引导磁盘和本地磁盘,以及(2)附加磁盘。

我可以看到,我使用diskSizeGb选项指定的大小决定了“引导磁盘和本地磁盘”类别下单个磁盘的大小。我不那么繁重的工作是使用8个额外的磁盘,每个40 so。

是否可以限制磁盘的大小/数量?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-03-28 11:28:56

数据流将为您的工作创建Compute实例,也称为工人

要处理输入数据并存储临时数据,每个工作人员可能需要最多15个额外的持久磁盘。

每个持久磁盘的默认大小在批处理模式下为250 GB,在流模式下为400 GB。40 is与默认值相差甚远。

在这种情况下,Dataflow服务将为您的工作人员跨更多磁盘。如果要在工作人员和磁盘之间保持1:1的比例,请使用请增加“diskSizeGb”字段。

票数 1
EN

Stack Overflow用户

发布于 2020-12-11 18:30:07

现有的答案解释了多少个磁盘,以及有关磁盘的信息--但它没有回答主要问题:为什么每个工作人员有这么多磁盘?

为什么每个工作人员需要几个磁盘?

数据流为流作业进行负载平衡的方式是将一系列键分配给每个磁盘。每个键的持久状态存储在这些磁盘中。

如果分配给其持久性磁盘的范围容量非常大,则可以重载工作人员。要实现负载平衡,Dataflow可以将一个范围从一个工作人员移动到另一个工作人员,方法是将一个持久磁盘传输到另一个工作人员。

这就是为什么Dataflow每个工作人员使用多个磁盘的原因:因为这允许它通过将磁盘从一个工人移动到另一个工作人员来进行负载平衡和自动标号。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49526051

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档