问如何在GKE中部署运行在GPU上的可动态扩展的AI服务？
EN

Stack Overflow用户

提问于 2019-02-25 21:47:15

回答 1查看 104关注 0票数 0

我目前正在尝试为我的应用程序部署一个后端服务API (在python和flask环境中运行tensorflow模型，当然还有GPU)，它需要具有可伸缩性，以便我可以同时处理1000个请求。

该模型每个请求需要运行15秒，这是相对较慢的，并且对于每个请求，我需要满足firebaseapp的超时限制。问题是我想在google-kubernetes-engine中部署这个东西，但是我不知道如何部署我的镜像，以便每个pod (运行镜像)只在一个gpu节点上运行(反之亦然)，并且每个请求被定向到一个可用的pod，这意味着不会有两个请求被定向到同一个pod。

我知道有一个叫https://cloud.google.com/kubernetes-engine/docs/concepts/daemonset的东西，但我不确定它是否适合我的需要。另一个问题是，是否可以按请求(或按pod可用性)扩展pod/gpu节点？例如，如果当前只有一个节点运行一个pod，则可以服务第一个传入请求，如果第二个请求传入，则需要生成第二个pod/gpu节点来服务该请求。流量导向机制是什么？是入口服务吗？如何检测流量导向机制中的pod可用性？综上所述，这里有三个问题: 1.如何将每个请求指向每个不同的pod? 2.如何在一个GPU-Node中只运行一个pod ? 3.如何扩展(可能是一个单位的Daemonset ?)并快速扩展，以便在30秒内为每个请求提供服务？

google-kubernetes-engine

回答 1

Stack Overflow用户

发布于 2019-02-27 06:01:01

您可以使用Container-native load balancing来定位pod并均匀分布pod。查看pod anti-affinity，其思想是，如果节点X已经在运行一个或多个符合规则的pod，则不应在该节点X中运行pod。
对于自动缩放，我会使用HPA (水平pod自动缩放器)，因此pod将根据正在监视的指标进行扩展。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54867663

复制

相似问题

问如何在GKE中部署运行在GPU上的可动态扩展的AI服务？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在GKE中部署运行在GPU上的可动态扩展的AI服务？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在GKE中部署运行在GPU上的可动态扩展的AI服务？
EN