我知道python有一个GIL,所以它只能使用一个cpu进行一个处理。但是pytorch使用多cpu,因为它使用C++进行多线程处理。我想它也适用于推理。因此,我想我们可以使用python多协同处理请求,也可以使用多cpu (用于计算)和加载模型一次。我认为它适合于低并发请求场景,而且在这种情况下我们不需要lib手电筒,对吗?
发布于 2022-05-20 06:02:37
试试https://github.com/triton-inference-server,这正是我所需要的。
这意味着使用python多处理来处理请求。
如果我只使用python,虽然py手电筒可以使用多线程(多cpu),但是它仍然一个一个地处理请求,因为
内部线程或内部线程用于一个请求,但不同时处理多个请求。
https://stackoverflow.com/questions/72237191
复制相似问题