
VRRP (Virtual Router Redundancy Protocol,虚拟路由器冗余协议) 是一种容错协议,主要用于解决局域网中默认网关的单点故障问题。
它通过将多台物理路由器(或交换机)组合成一个“虚拟路由器”,对外提供一个虚拟 IP (VIP)。对于终端设备(如服务器、PC)来说,它们只需要将网关指向这个虚拟 IP,而不必关心背后具体是哪台物理设备在工作。

角色划分:主备状态通过优先级竞选。
在传统的网络架构中,为了实现跨网段通信,主机必须配置默认网关。
如果网络中只有一个出口路由器:
VRRP 的出现,使得网络具备了“透明切换”的能力:即便主设备宕机,备份设备也能在秒级(甚至毫秒级)内接管业务,用户侧几乎感知不到网络中断。
智算中心(Intelligent Computing Center)由于承载了大量的 AI 训练和推理任务,对网络可用性的要求远高于传统数据中心。
在智算中心,GPU 服务器通常集群化部署。VRRP 常部署在 汇聚层或核心层交换机 上。
在现代智算中心,纯粹的 VRRP 使用正在减少,更多是与 MC-LAG (跨设备链路聚合)技术结合。
VRRP + MC-LAG:可以实现真正的“双活”转发。两台物理交换机通过逻辑虚拟化,既能互为备份,又能同时转发流量,极大提升了带宽利用率(VRRP 默认情况下只有 Master 转发流量,Backup 处于备份闲置状态)。
工作原理
在传统 VRRP 中,只有 Master 转发流量,Backup 是闲着的。但在 VRRP + MC-LAG 环境下,情况发生了质变,实现了真正的“全员加速”:
1、网关同步:两台交换机通过 MC-LAG 的 Peer-link 同步状态。虽然 VRRP 协议上仍有 Master 和 Backup 之分,但两台设备都会把虚拟网关的 MAC 地址写进自己的硬件转发逻辑里。
2、本地转发(关键点):
AI 训练对网络抖动极其敏感。VRRP 配合 BFD (双向转发检测) 技术,可以将故障感知时间从秒级压缩到 10ms-50ms。
应用:当上行链路或对端端口出现微小物理损伤时,BFD 快速通知 VRRP 切换,防止 AI 训练任务(Checkpoints 写入等)因网络超时而失败。
在现代的智算中心(AIDC)或金融交易网络中,1 秒的中断可能导致成千上万个计算任务失败或巨额损失。VRRP有V2和V3两个主要版本,核心动力是为了拥抱IPv6时代以及提高故障切换的速度。
从V2升级到V3并不是简单的“小修小补”而是,协议层面的重大进化:
特性 | VRRP V2 (RFC 3768) | VRRP V3 (RFC 5798) |
|---|---|---|
支持的协议 | 仅限 IPv4 | 同时支持 IPv4 和 IPv6 |
通告时间精度 | 以“秒”为单位 | 以“厘秒”为单位(1 厘秒 = 0.01 秒) |
认证机制 | 支持明文/MD5 认证(已被证明不安全) | 取消了认证(依靠更安全的 IPsec 或上层防护) |
多播地址 | 224.0.0.18 | IPv4: 224.0.0.18 / IPv6: FF02::12 |
VRRP V2:V2 的通告间隔(Advertisement Interval)单位是秒。默认是 1 秒,故障感知的理论极限通常在 3 秒以上。
VRRP V3:V3 将时间单位改为了厘秒(Centiseconds,1/100秒)。
这意味着你可以将间隔设置为 10 厘秒(即 100ms),故障切换可以在 300ms 左右完成。这种质的提升,是 V3 诞生的重要性能驱动力。
VRRP 是网络高可用性的“基石”。在智算中心时代,虽然技术架构在向 Spine-Leaf 扁平化和三层路由到边缘演进,但 VRRP 及其衍生技术依然在管理网、带外网以及非全路由环境中发挥着不可替代的作用。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。