文章/答案/技术大牛

发布

社区首页 >问答首页 >Gunicorn工作者，用于GPU任务的线程，以增加并发/并行性。

问Gunicorn工作者，用于GPU任务的线程，以增加并发/并行性。
EN

Stack Overflow用户

提问于 2021-02-09 08:48:34

回答 1查看 774关注 0票数 0

我正在使用烧瓶与Gunicorn实现一个人工智能服务器。服务器接收HTTP请求并调用该算法(用py手电筒构建)。计算在nvidia GPU上运行。

在这种情况下，我需要一些关于如何实现并发/并行的输入。本机有8 vCPUs，20 GB内存，1 GPU，12 GB内存。

1工作人员占用，4 GB内存，2.2GB GPU内存。(由于GPU内存2.2GB* 5工人= 11 GB )
1 worker =1个HTTP请求(最大同时请求= 5)

具体问题是

如何增加concurrency/parallelism?

Do，我必须指定在GPU?

上计算的线程数

现在我的命令是

gunicorn -绑定0.0.0.0:8002主:app-timeout 360 -工人=5-worker-class=gevent

concurrency

parallel-processing

pytorch

gpu

gunicorn

回答 1

Stack Overflow用户

发布于 2021-03-16 06:10:08

显然，快速托卡器不是线程安全的。

AutoTokenizers看起来像是一个内部使用快速或慢的包装器。它们的默认设置为fast (不是线程安全)。你得把它换成慢速(安全)。这就是为什么添加use_fast=False标志的原因

我通过以下方式解决了这一问题：

tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)

最好的，Chirag Sanghvi

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66115632

复制

相似问题

问Gunicorn工作者，用于GPU任务的线程，以增加并发/并行性。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Gunicorn工作者，用于GPU任务的线程，以增加并发/并行性。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Gunicorn工作者，用于GPU任务的线程，以增加并发/并行性。
EN