我正在使用GKE区域集群上的自动伸缩可抢占节点批量处理数据。时不时地,GPU变得稀缺。而不是切换区域以追逐GPU(我已经这样做了),我尝试更改为多区域配置。在我看来,在一些轻到中等规模的工作负载上,事情似乎运行得很好。
我在UI中看到了有关不平衡节点池的警告,因为在有可用资源的区域中,节点池似乎正在扩展。这个警告是严重的吗?不同区域中不同节点编号的后果是什么?我是否应该为每个区域运行单独的池?
我在节点之间有相当多的通信--处于不同区域的工作人员对我的带宽有多大影响?GKE docs表示没有入口限制,只有出口比区域内慢,比区域间快。
https://stackoverflow.com/questions/67144713
复制相似问题