几个月来,我一直在Amazon的负载均衡器后面运行两个相同的中型CPU实例。我注意到负载均衡器有一个习惯,那就是在相当规律的基础上声明一个实例不健康,关闭该实例,并用已定义的AMI的新实例替换。
这在技术上是正确的,我只是不明白为什么它偶尔会认为实例是不健康的。在过去的3天里,我一直在监控健康检查端口,当使用两个实例的公共DNS时,每隔60秒进行一次检查。负载均衡器在此期间已3次声明实例不健康,并将其替换。对于我需要的东西,这些实例是有目的的,所以我可以排除这是一个问题。
对于ELB架构,我知道这在技术上无关紧要,但不健康的比率已经从每周一次上升到每天一次。每个旋转的实例都会花费我额外的一个小时的实例成本。如果情况变得更糟,成本将变得微不足道,但更重要的是,它不会让我对ELB的内部结构产生信心。
这和this one不是一个问题,我的问题是偶尔会失败。作为参考,我使用的是欧盟/爱尔兰数据中心,我的不健康标准是在5分钟内在我的端口(8080)上发生10次故障(这比我真正希望设置的时间更长,我不希望传输到实例的流量在5分钟内无法获得响应)。
我知道有人会建议联系亚马逊,但我没有支持合同,任何尝试过的人都知道我会得到什么样的答案,如果我真的得到了答案的话。我真的很喜欢这个想法,只是它对我来说并不稳定。
发布于 2012-07-25 16:18:51
实例处于不健康状态的唯一原因是健康检查失败。确保您的应用程序没有负载峰值,使用nagios、cacti、monit等第三方工具监控性能,并在此峰值期间检查系统。
https://stackoverflow.com/questions/8473184
复制相似问题