我的kafka版本是0.10.2.1。我的服务qps非常低(1msg/秒)。我们对rtt的要求非常严格。( 99.9% < 30ms)目前我遇到了一个问题,当kafka运行了很长时间,15天左右,性能开始下降。2017-10-21是这样的
Time . num of msgs . percentage
cost<=2ms 0 0.000%
2ms<cost<=5ms 12391 32.659%
5ms<cost<=8ms 25327 66.754%
8ms<cost<=10ms 186 0.490%
10ms<cost<=15ms 24 0.063%
15ms<cost<=20ms 2 0.005%
20ms<cost<=30ms 0 0.000%
30ms<cost<=50ms 4 0.011%
50ms<cost<=100ms 1 0.003%
100ms<cost<=200ms 0 0.000%
200ms< cost<=300ms 6 0.016%
300ms<cost<=500ms 0 0.000%
500ms<cost<=1s 0 0.000%
cost>1s 0 0.000%但最近,它变成了:
cost<=2ms 0 0.000%
2ms<cost<=5ms 7592 29.202%
5ms<cost<=8ms 17470 67.197%
8ms<cost<=10ms 698 2.685%
10ms<cost<=15ms 143 0.550%
15ms<cost<=20ms 23 0.088%
20ms<cost<=30ms 19 0.073%
30ms<cost<=50ms 11 0.042%
50ms<cost<=100ms 5 0.019%
100ms<cost<=200ms 11 0.042%
200m s<cost<=300ms 26 0.100%
300ms<cost<=500ms 0 0.000%
500ms<cost<=1s 0 0.000%
cost>1s 0 0.000%当我检查日志时,我看不到一种方法来检查特定消息具有高rtt的原因。如果有任何方法可以优化(操作系统调优,代理配置),请告诉我
发布于 2017-11-08 09:08:10
在没有请求处理时间分解的情况下,很难判断哪个部分可能是问题的罪魁祸首。更具体地说,您需要连接jmx并检查以下请求级指标:
总时间请求队列时间本地时间远程响应队列时间响应发送时间
https://kafka.apache.org/documentation/#monitoring
随着时间的推移,检查它们的avg / 99百分位数的值,看看哪个导致了性能下降。
发布于 2017-11-06 03:34:44
在it
中,
https://stackoverflow.com/questions/47123566
复制相似问题