当我看到我的数据流计算引擎实例的细节时,我可以看到正在使用的两类磁盘- (1)引导磁盘和本地磁盘,以及(2)附加磁盘。
我可以看到,我使用diskSizeGb选项指定的大小决定了“引导磁盘和本地磁盘”类别下单个磁盘的大小。我不那么繁重的工作是使用8个额外的磁盘,每个40 so。
是否可以限制磁盘的大小/数量?
发布于 2018-03-28 11:28:56
数据流将为您的工作创建Compute实例,也称为工人。
要处理输入数据并存储临时数据,每个工作人员可能需要最多15个额外的持久磁盘。。
每个持久磁盘的默认大小在批处理模式下为250 GB,在流模式下为400 GB。40 is与默认值相差甚远。
在这种情况下,Dataflow服务将为您的工作人员跨更多磁盘。如果要在工作人员和磁盘之间保持1:1的比例,请使用请增加“diskSizeGb”字段。
发布于 2020-12-11 18:30:07
现有的答案解释了多少个磁盘,以及有关磁盘的信息--但它没有回答主要问题:为什么每个工作人员有这么多磁盘?
为什么每个工作人员需要几个磁盘?
数据流为流作业进行负载平衡的方式是将一系列键分配给每个磁盘。每个键的持久状态存储在这些磁盘中。
如果分配给其持久性磁盘的范围容量非常大,则可以重载工作人员。要实现负载平衡,Dataflow可以将一个范围从一个工作人员移动到另一个工作人员,方法是将一个持久磁盘传输到另一个工作人员。
这就是为什么Dataflow每个工作人员使用多个磁盘的原因:因为这允许它通过将磁盘从一个工人移动到另一个工作人员来进行负载平衡和自动标号。
https://stackoverflow.com/questions/49526051
复制相似问题