首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2025 年 11 月 18 日 Cloudflare 发生的大规模服务中断事件

2025 年 11 月 18 日 Cloudflare 发生的大规模服务中断事件

作者头像
nobody-nobody
发布2026-03-16 21:18:26
发布2026-03-16 21:18:26
790
举报
文章被收录于专栏:nobodynobody
HTTP error page displayed during the incident
HTTP error page displayed during the incident

事件时间线(UTC)

  • 11:05:部署了一项数据库权限变更,使 ClickHouse 用户能显式访问原本隐式可访问的表元数据。
  • 11:20:开始出现严重网络故障,用户访问客户网站时看到错误页面。
  • 11:32:Cloudflare 启动人工调查;最初误判为 DDoS 攻击。
  • 13:05:实施绕过措施,缓解 Workers KV 和 Access 服务影响。
  • 14:24:确认根本原因是机器人管理模块的“特征文件”异常增大,并停止其传播。
  • 14:30:核心流量基本恢复。
  • 17:06:所有系统完全恢复正常。

根本原因

  • 一次 ClickHouse 数据库权限配置变更 导致用于生成 机器人管理模块“特征文件” 的查询返回了重复列(因未按数据库名过滤)。
  • 特征文件大小因此 翻倍以上,超过代理系统设定的 200 个特征上限
  • 超限导致 核心代理(FL/FL2)崩溃,引发大量 HTTP 5xx 错误

受影响的服务

  • 核心 CDN 与安全服务:大量 5xx 错误。
  • Turnstile:无法加载,影响登录。
  • Workers KV:请求失败,因依赖核心代理。
  • Cloudflare 仪表板:新用户无法登录(因 Turnstile 失效),后因登录激增再次短暂不可用。
  • Access:身份验证失败,但已有会话不受影响。
  • 电子邮件安全:IP 信誉源短暂中断,垃圾邮件检测略有下降。

技术细节亮点

  • 特征文件每 5 分钟由 ClickHouse 生成一次,在集群逐步更新过程中,正确与错误文件交替出现,造成系统行为波动,增加了诊断难度。
  • 新旧代理引擎(FL2 与 FL)受影响方式不同:
    • FL2:直接崩溃,返回 5xx。
    • FL:未崩溃,但机器人评分为零,导致误判合法流量为机器人。

应对与修复

  • 手动回滚至已知良好的特征文件版本。
  • 强制重启核心代理。
  • 为 Workers KV 实施临时绕过核心代理的方案。
  • 扩展仪表板控制平面并发能力以应对登录洪峰。

后续改进措施

Cloudflare 承诺将采取以下行动防止类似事件:

  1. 强化配置文件摄入机制,像对待用户输入一样严格校验内部生成文件。
  2. 为各特征启用 全局终止开关,便于快速禁用异常模块。
  3. 限制调试/错误报告系统资源占用,避免加剧故障。
  4. 全面审查核心代理模块的 故障模式与错误处理逻辑

官方致歉

Cloudflare CEO Matthew Prince 表示,这是自 2019 年以来最严重的一次中断,承认“任何中断都是不可接受的”,并对全球用户和客户致以诚挚歉意。

此次事件凸显了复杂分布式系统中微小配置变更可能引发的连锁反应,也反映了现代互联网基础设施的高度相互依赖性。

https://blog.cloudflare.com/zh-cn/18-november-2025-outage/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 认知科技技术团队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 事件时间线(UTC)
  • 根本原因
  • 受影响的服务
  • 技术细节亮点
  • 应对与修复
  • 后续改进措施
  • 官方致歉
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档