核心痛点 企业网络整体频繁出现网络抖动、时断时续,各类业务访问大面积超时、连接失败,防火墙系统持续上报会话资源耗尽告警。设备重启之后网络能够短暂恢复正常,但间隔一段时间后故障会再次复发,无法从根源上解决问题,长期运行严重影响内网办公、业务系统稳定运行。防火墙会话表作为所有连接的资源载体,每一条TCP、UDP网络连接都会占用一个独立会话条目,当会话资源被占满后,新的业务连接无法建立,旧连接也无法正常释放,最终形成网络瘫痪。
黄金排查思路
display firewall session table summary命令,查看当前会话总数、设备最大会话容量以及整体资源使用率。正常业务场景下会话使用率应低于70%,一旦数值超过80%,即可判定为会话资源不足引发故障。初步确认资源耗尽后,继续细化分析流量类型,执行display firewall session table protocol tcp筛选TCP协议全部会话,同时可补充UDP、ICMP协议查看,逐一分析源IP、目的IP、端口信息,找出占用海量会话、大量半连接的异常终端IP、异常服务,区分正常业务连接与恶意异常连接。firewall session limit per-user单用户会话数限制,约束单IP最大可建立连接数,避免异常流量持续消耗资源。同时执行reset firewall session table source 异常IP命令,针对性清除该IP全部无效会话,快速回收设备资源。后续还需要联动终端运维,对中毒主机进行全盘杀毒、漏洞修复、恶意程序清理,从终端侧杜绝异常连接再次产生。firewall session aging-time tcp自定义调整TCP连接老化时长,针对HTTP网页访问、DNS域名解析这类生命周期极短的短连接业务,可将老化时间下调至60~120秒,让闲置会话快速超时释放。同时可根据业务场景,分别优化UDP、ICMP等协议老化参数,完善会话回收机制,从底层避免会话资源再次满载。核心痛点 运维人员已经完整配置NAT Server端口映射,实现公网地址映射内网服务器,但是外网用户始终无法访问内部业务服务器;同时存在典型NAT回流问题,内网用户直接通过服务器公网IP、公网域名访问内部服务连接超时,无法访问,改用内网私有IP访问却完全正常。同时双出口场景下还容易出现服务器单向通、回包异常、连接无故中断的问题。
黄金排查思路
核心痛点 L2TP、IPSec远程VPN拨号连接时,频繁提示隧道协商超时、保活超时,无法正常建立隧道;部分场景出现隧道界面显示连接成功,但是无法Ping通总部内网网段、无法访问内网业务资源,故障现象隐蔽、无明确报错,排查难度大。
黄金排查思路
display ip routing-table查看防火墙全局路由表,重点核查是否存在去往VPN拨入地址池、远端内网网段的回程明细路由。最常见故障为配置了大范围汇总路由,比如192.168.0.0/16,形成路由黑洞,报文无法正确转发,需要删除错误汇总路由,逐条配置精准的网段明细路由,保证往返路由双向可达。核心痛点 主备双机热备组网下,防火墙无规律频繁主备切换,造成全网业务间歇性闪断、网络中断;部分设备无任何明显系统日志、告警信息,出现随机自动重启,无法通过常规配置排查定位原因,属于边界设备疑难隐性故障。
黄金排查思路
vrrp vrid 1 timer advertise 5适当延长VRRP通告报文间隔,降低网络抖动造成的误切换,提升HA组网稳定性。display device temperature命令,查看设备主控板、业务芯片内部结温、各部件温度参数。部分老旧型号防火墙温度传感器检测异常、高温保护电路功能失效,设备内部热量堆积达到阈值后会触发硬件强制复位重启。此类配置无法解决的硬件隐疾,需要结合设备完整诊断日志、硬件检测信息,联系设备原厂技术支持检测维修。当以上所有常规配置、路由、策略、NAT、会话参数检查全部无误,故障依旧无法定位时,使用防火墙底层专业诊断工具,从报文转发全过程定位问题节点。
diagnose,先通过ACL访问控制列表精确匹配测试流量的源IP、目的IP、端口,完成流量筛选。配置命令firewall statistic acl <acl编号> enable开启该ACL流量统计功能。随后执行display firewall statistic acl查看报文收发、匹配、丢弃详细统计数据,清晰区分报文是物理链路未接收、路由转发异常,还是防火墙安全策略拦截丢弃,精准锁定报文中断的具体环节。display firewall session table verbose source inside <测试终端IP>,基于指定内网测试主机单独查看完整会话详情,重点分析关键字段:
NextHop/MAC:校验防火墙转发所选下一跳地址、网关MAC地址是否正确,判断路由转发路径是否偏离;
PolicyName:查看当前流量匹配的安全策略名称,若该字段为空,代表流量未匹配任何放行策略,被防火墙默认隐式规则直接丢弃;
Left/TTL:查看会话剩余存活时间、老化周期参数,判断连接是否正常建立、会话生命周期是否正常维护,是否存在会话异常快速老化断开问题。华为防火墙运维排查核心黄金三角:会话表、路由表、安全策略。
会话表用于查看流量连接建立、资源占用情况;路由表负责确认数据报文往返转发路径是否可达;安全策略管控流量放行与拦截动作。绝大多数网络故障都围绕这三点产生。后续遇到各类疑难杂症故障,摒弃主观经验直觉判断,一切以设备display查看命令的真实输出信息作为排查唯一依据,按流程逐项校验,即可快速定位并解决故障。
另:点击下方工具可免费使用阿祥自制的ICT随身工具箱↓
常用厂商指令查找、故障码查询、快捷脚本生成,一网打尽。