我正在使用烧瓶与Gunicorn实现一个人工智能服务器。服务器接收HTTP请求并调用该算法(用py手电筒构建)。计算在nvidia GPU上运行。
在这种情况下,我需要一些关于如何实现并发/并行的输入。本机有8 vCPUs,20 GB内存,1 GPU,12 GB内存。
具体问题是
如何增加concurrency/parallelism?
上计算的线程数
现在我的命令是
gunicorn -绑定0.0.0.0:8002主:app-timeout 360 -工人=5-worker-class=gevent
发布于 2021-03-16 06:10:08
显然,快速托卡器不是线程安全的。
AutoTokenizers看起来像是一个内部使用快速或慢的包装器。它们的默认设置为fast (不是线程安全)。你得把它换成慢速(安全)。这就是为什么添加use_fast=False标志的原因
我通过以下方式解决了这一问题:
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)最好的,Chirag Sanghvi
https://stackoverflow.com/questions/66115632
复制相似问题