首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Gunicorn工作者,用于GPU任务的线程,以增加并发/并行性。

Gunicorn工作者,用于GPU任务的线程,以增加并发/并行性。
EN

Stack Overflow用户
提问于 2021-02-09 08:48:34
回答 1查看 774关注 0票数 0

我正在使用烧瓶与Gunicorn实现一个人工智能服务器。服务器接收HTTP请求并调用该算法(用py手电筒构建)。计算在nvidia GPU上运行。

在这种情况下,我需要一些关于如何实现并发/并行的输入。本机有8 vCPUs,20 GB内存,1 GPU,12 GB内存。

  • 1工作人员占用,4 GB内存,2.2GB GPU内存。(由于GPU内存2.2GB* 5工人= 11 GB )
  • 1 worker =1个HTTP请求(最大同时请求= 5)

具体问题是

如何增加concurrency/parallelism?

  • Do,我必须指定在GPU?

上计算的线程数

现在我的命令是

gunicorn -绑定0.0.0.0:8002主:app-timeout 360 -工人=5-worker-class=gevent

EN

回答 1

Stack Overflow用户

发布于 2021-03-16 06:10:08

显然,快速托卡器不是线程安全的。

AutoTokenizers看起来像是一个内部使用快速或慢的包装器。它们的默认设置为fast (不是线程安全)。你得把它换成慢速(安全)。这就是为什么添加use_fast=False标志的原因

我通过以下方式解决了这一问题:

代码语言:javascript
复制
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)

最好的,Chirag Sanghvi

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66115632

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档