首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在GKE中部署运行在GPU上的可动态扩展的AI服务?

如何在GKE中部署运行在GPU上的可动态扩展的AI服务?
EN

Stack Overflow用户
提问于 2019-02-25 21:47:15
回答 1查看 104关注 0票数 0

我目前正在尝试为我的应用程序部署一个后端服务API (在python和flask环境中运行tensorflow模型,当然还有GPU),它需要具有可伸缩性,以便我可以同时处理1000个请求。

该模型每个请求需要运行15秒,这是相对较慢的,并且对于每个请求,我需要满足firebaseapp的超时限制。问题是我想在google-kubernetes-engine中部署这个东西,但是我不知道如何部署我的镜像,以便每个pod (运行镜像)只在一个gpu节点上运行(反之亦然),并且每个请求被定向到一个可用的pod,这意味着不会有两个请求被定向到同一个pod。

我知道有一个叫https://cloud.google.com/kubernetes-engine/docs/concepts/daemonset的东西,但我不确定它是否适合我的需要。另一个问题是,是否可以按请求(或按pod可用性)扩展pod/gpu节点?例如,如果当前只有一个节点运行一个pod,则可以服务第一个传入请求,如果第二个请求传入,则需要生成第二个pod/gpu节点来服务该请求。流量导向机制是什么?是入口服务吗?如何检测流量导向机制中的pod可用性?综上所述,这里有三个问题: 1.如何将每个请求指向每个不同的pod? 2.如何在一个GPU-Node中只运行一个pod ? 3.如何扩展(可能是一个单位的Daemonset ?)并快速扩展,以便在30秒内为每个请求提供服务?

EN

回答 1

Stack Overflow用户

发布于 2019-02-27 06:01:01

  1. 您可以使用Container-native load balancing来定位pod并均匀分布pod。查看pod anti-affinity,其思想是,如果节点X已经在运行一个或多个符合规则的pod,则不应在该节点X中运行pod。
  2. 对于自动缩放,我会使用HPA (水平pod自动缩放器),因此pod将根据正在监视的指标进行扩展。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54867663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档