在GCP上的GKE中,我们遇到了一个奇怪的问题,如果断断续续的HTTP 500/520/525错误试图每隔6小时10分钟访问一次API,那么我们就有几秒到一分钟的时间,而我们的日志还没有给我们提供更多的时间。
我们的管道看起来是:
user request -> CloudFlare -> GKE nginx LoadBalancer (ssl termination) -> GKE router pod -> API点击CloudFlare或GKE负载均衡器直接显示同样的错误,因此似乎问题在我们的GCP设置的某个地方。
在过去,我遇到一个CloudSQL代理问题,它每小时更新一次SSL证书,并导致非常可预测的、非常短暂的中断。
GKE是否有一个类似的系统,我们可能会碰到这样的系统,它每6h就会做一些对我们造成这些错误的事情吗?
Pingdom报告:

发布于 2018-05-17 21:17:04
结果发现,用于内部负载平衡的2种所需的健康检查IP中只有1种是白色的。不确定这是如何导致错误如此时钟工作,但更新我们的防火墙规则已经停止了问题。希望这对未来的人有帮助!
https://stackoverflow.com/questions/50207442
复制相似问题