是否可以在GCP (Google Cloud Platform)中使用dataproc worker节点为自动扩展设置完全自定义的指标??
我想在GCP中通过dataproc运行Spark分布处理。但问题是,我只想基于完全自定义的指标数据横向扩展worker节点。我对它感到好奇的原因是,对预期处理的未来数据的预测是可用的。
现在/ now+1 / now+2 / now+3
1 1GB /2 1GB /1 1GB/3 1GB <===预期数据量(度量)
那么,我是否可以根据未来的预期数据量进行可预测的横向扩展/扩展?提前谢谢。
发布于 2021-01-05 12:01:01
不,目前Dataproc仅基于纱线内存指标自动缩放集群。
你需要写你的Spark作业,当它处理更多的数据时,它需要更多的Spark executors (以及最终的内存),通常这意味着当数据大小增加时,你需要拆分和分区更多的数据。
https://stackoverflow.com/questions/65211560
复制相似问题