我有一个ML推理服务器,它能够每秒处理大约100个请求,如果处理得更高,就会中断和超时。
现在,实际的负载有时会跳到每秒大约200个请求。客户端可以等待响应的~2秒,但对于超时请求则不是很好。
我正在考虑建立一个反向代理,它可以在负载较高时以某种方式延迟请求,但在负载下降时保持它们的活力,然后将它们转发到推理服务器。我甚至不确定这是否可能,我希望我把我的问题弄清楚了。
对于如何解决这个问题,有什么建议或建议吗?
发布于 2021-03-10 22:30:58
Nginx有一个limit_req选项
https://nginx.org/en/docs/http/ngx_http_limit_req_module.html#limit_req
设置共享内存区域和请求的最大突发大小。如果请求速率超过为区域配置的速率,则延迟处理请求,以便以定义的速率处理请求。过多的请求会被延迟,直到它们的数量超过最大突发大小,在这种情况下,请求会被错误地终止。默认情况下,最大突发大小等于零。例如,指令
limit_req_zone $server_name zone=one:10m rate=100r/s;
server {
location /search/ {
limit_req zone=one burst=500;
}允许平均每秒不超过100个请求,脉冲数不超过500个请求。
延迟参数(1.15.7)指定多个请求延迟的限制。默认值为零,即所有过多的请求都会延迟。
可能有几个limit_req指令。例如,以下配置将限制来自单个IP地址的请求的处理速率,同时限制虚拟服务器的请求处理速率:
limit_req_zone $binary_remote_addr zone=perip:10m rate=1r/s;
limit_req_zone $server_name zone=perserver:10m rate=100r/s;
server {
...
limit_req zone=perip burst=5 nodelay;
limit_req zone=perserver burst=500;
}https://stackoverflow.com/questions/66434850
复制相似问题