
影响范围:大面积崩盘。
影响时长:17点左右开始,21-22点左右恢复,4个小时左右。
大面积的崩盘, 肯定是基建发生了问题, 基础不牢,地动山摇。
据内部人员小道消息:服务发现/注册中心 发生了故障。
注册中心是服务实例信息的存储仓库,也是服务提供者和服务消费者进行交互的桥梁。它主要提供了服务注册和服务发现这两大核心功能。
简单理解,在微服务中,他是交通枢纽和指挥官。
常见的注册中心有:Zookeeper、Eureka、Nacos、Consul、ETCD
发生故障可能的原因:
故障处理过程
1)重启的时候采取的一次一个节点(防止节点上保留的实例数据丢失)
滚动重启后,负载没降下来
2)滚动升配, 再次尝试降低负载
负载有缓解,但还是比较高
3)尝试扩容
负载不均衡
4)尝试删除集群临时文件(raft、实例目录)
全部重新分配
5)并发过高导致机器承载不住, 那就降级,分两步, 一,关闭服务推送,使其用本地缓存;二, 防火墙上 drop 掉一些非核心应用的连接
# 先允许集群之间端口的访问,然后限制其他服务的端口访问
iptables -A INPUT -p tcp --dport $port -s $CIDR1 -j DROP
iptables -A INPUT -p tcp --dport $port -s $CIDR2 -j DROP6)等集群负载下来后, 服务在逐步放开