我在上看到了很多502个“坏网关”错误。很难在下面的图表上看到(颜色非常相似,我不知道如何改变它们),但这是我过去6个小时的流量:

暗红色线代表5xx错误。他们今天早上9:30开始工作,12点半左右平静下来。但在这3个小时内,nginx一直在返回502 Bad Gateway。然后它就停止了。
在此期间,试图改变行为的我对代码的唯一提交是将每个实例从内存的0.5增加到1G,并在大约404个响应上增加缓存TTL。我也是添加了活性检查,这样nginx就能知道什么时候应用服务器坏了。
我查看了nginx的错误日志,看到了一堆这样的内容:
failed (111: Connection refused) while connecting to upstream我进行了三次检查,我所有的应用服务器都运行在8080端口上,所以我排除了这一点。我在想,也许活性检查可以帮助应用程序引擎知道什么时候重新启动需要它的服务器,但是我没有从应用服务器的stdout日志中看到任何显示它们中的任何一个是坏的。
这会是应用程序引擎的某种错误吗?
编辑@9:17pPST:下面是我的app在过去24小时的流量的图片,并尽量减少对应用程序的代码更改。我高亮显示了5xx的尖峰,这样你就能更清楚地看到它们。

发布于 2019-04-04 18:13:18
不幸的是,502个错误激增的原因有很多,例如:
要获得更多信息,您需要对来自云控制台的502错误进行查看堆栈驱动程序。
下一次出现峰值时,您可以检查的是如果502错误是由您的健康检查给出假阳性引起的。还有另一个服务器故障邮政也有同样的问题,可以让您知道更多。如果是这样的话,您可能需要研究如何增加实例的磁盘空间。
为了避免进一步的尖峰,我建议您在app.yaml文件中添加就绪检查以及活性检查,这样在实例完全准备好接受它之前,它不会得到任何通信量。您可能已经看过了,但是这是文件用于添加就绪检查
要检查的最后一件事是,与所有流量相比,具有峰值的流量百分比是否低于二语习得。
https://serverfault.com/questions/951189
复制相似问题