首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SRE(第6篇):从腾讯互娱看国内 SRE 组织进化之路

SRE(第6篇):从腾讯互娱看国内 SRE 组织进化之路

作者头像
用户10377957
发布2026-06-17 21:17:58
发布2026-06-17 21:17:58
60
举报
1 引言

在上一篇中,我们介绍了 腾讯互娱技术运营团队从传统运维到 SRE 转型的时间线。本篇将进一步探讨这一转型过程中,组织架构与人才文化等方面的变化。

需要提醒大家的是:

腾讯互娱事业群是一个万人组织,技术运营团队包含400个 SRE,30多个业务运维人员,以及60多个内包运维人员,负责全球 40 多万台服务器的技术运营工作。

2 腾讯互娱 SRE 组织的进化历程

下面是腾讯互娱内部 SRE 组织所经历的过程。

  • 2013 年,开始招聘软件开发工程师
  • 2018 年,内部成立平台开发团队,为开发领域提供 CI 服务
  • 2021 年,腾讯公司正式设立 SRE 岗位,
  • 2025 年,腾讯互娱技术运营部 SRE 近400人 + 部门内的业务运维少于20人 + 内部子公司业务运维60多人

由此可见,业务运维只有极少量的业务运维,以内包为主。

那么,原来的运维人员去了哪里呢?他们要么转型为 SRE,要么就离开了。

而在 SRE 团队,不同小组的能力关注点也各有侧重。

这就形成了内部SRE能力现代化 + 运营平台通用化 + 外部业务运维灵活化的模式。

3 深度解析:从传统运维到可靠性工程的必然跨越

腾讯互娱在 2013 年开始正式招聘软件开发工程师,到 2021 年腾讯公司正式设立 SRE 岗位,可以说是用了七年时间完成了从无到有的过程。

再经过四年的经营(截止到了 2025 年 10 月),基本上形成了『400 SRE+30 业务运维+60 个内包运维』的团队组织与人才格局。

这一进化堪称行业发展的必然选择。值得强调的是,这种转型并非颠覆运维的本质。

从业务领域来看,保障 IT 系统支撑业务连续、稳定运行的核心目标,以及覆盖基础设施、应用服务的工作范围,均未发生根本性变化。

真正的变革,发生在实现这一目标的工作理念、核心原则与具体方法上。

传统运维模式在复杂业务与技术架构面前的局限性日益凸显,SRE(站点可靠性工程)正是通过理念与方法的革新,成为组织突破运维瓶颈、实现价值升级的核心路径。

4 转型的必然性:传统运维的困境与 SRE 的本质突破

传统运维模式曾在 IT 发展初期发挥了重要作用,但随着云原生、微服务架构的普及和业务规模的指数级增长,其固有的系统性缺陷逐渐成为发展桎梏。

1. 效率层面,传统运维过度依赖人工操作,面对海量告警和高频变更时往往手忙脚乱,故障响应与恢复时间被大幅拉长。

有数据显示,传统模式下运维人员 70%的精力都消耗在重复的人工处理中。

2. 可靠性方面,『被动救火』成为常态,缺乏提前预防的技术手段和流程机制,故障频发且影响范围难以控制。

尤其在金融、电信等对稳定性要求极高的行业,一次突发故障可能引发连锁反应。

3. 人才结构与协作模式的问题同样突出。

传统运维人员技能单一,多局限于系统操作层面,难以应对分布式系统的复杂性。开发与运维之间的『部门墙』森严,前者重功能交付、后者重系统稳定,责任推诿现象时有发生,导致业务交付周期延长。

4. 成本控制方面,随着业务扩张,传统运维需要持续增加人力投入,却难以实现产出的同比例增长,人力成本与运维价值呈现严重失衡。

SRE 的出现恰好破解了这些困境,其核心是 Google 提出的『通过软件工程的方式设计运维体系』的理念,实现了从职能化运维到工程化可靠的本质跨越。

5 变与不变:价值坚守与模式创新

需要明确的是,SRE 与传统运维在业务价值诉求上高度一致,『保障系统稳定运行』始终是核心目标,这与传统运维的工作宗旨一脉相承。

但在实现路径上,两者却存在天壤之别:与传统运维相比,SRE 彻底重塑了工作理念与原则,将『可靠性是设计出来的』作为核心原则,取代了传统运维『被动应对故障』的惯性思维。

而腾讯互娱的 SRE 走得更坚定且更远。

在工作内容与方法上,腾讯互娱的 SRE 将软件工程方法全面融入运维全流程,至少把 50% 的精力投入到自动化工具开发和架构优化中,通过基础设施即代码(IaC)、自动化巡检等手段,将重复性工作减少 80% 以上。

在协作模式上更有创新探索。腾讯 SRE 进一步打破了开发与运维的壁垒,实现了新式的『开发运维一体化』。

有一些 SRE 直接参与到业务方的日常工作中。他们与业务团队一起做日常开发工作,主要完成业务服务稳定性有关的组件定制与配置的日常开发维护。

这种方式在快速响应业务稳定性需求方面有很大的优势。

这些 SRE 既掌握运营平台与各种组件的最佳使用方式(业务侧的开发要了解各种组件的使用,还是有一定的成本),又能直接参与业务侧的日常工作与沟通。

通过对所服务的业务团队需求的精准理解,能够以‘现时现地’的方式解决业务稳定运营的痛点。

关于这种“通用平台+插件生态”的建设方式与成功要素,我们在下一篇 SRE 文章中再详细讨论。

更关键的是,SRE 建立了以 SLI(服务级别指标)、SLO(服务级别目标)、SLA(服务级别协议)为核心的量化管理体系,将模糊的『稳定』转化为可衡量、可落地的指标。

这种从被动响应到主动预防的转变,从职能隔离到协同共生的升级,正是 SRE 成为转型必然的核心逻辑。

简而言之,SRE 与传统运维的区别可归结为以下几个维度。

维度

传统运维

SRE 模式

价值提升

思维方式

『维稳优先』

『可靠性是设计出来的』

从被动响应到主动预防

工作重心

事务性处理(70%)

自动化与架构优化(50%)

减少 80% 重复性工作(琐事)

协作模式

职能孤岛

开发运维深度融合

服务更可靠

衡量标准

无统一量化指导

SLI/SLO/SLA 指标体系

服务可用性 ↑0.3%,投诉 ↓22%

人才要求

系统运维操作能手

『掌运维、能编码、懂业务』全栈工程师

人员价值提升 3-5 倍

6 SRE 组织的进化趋势:规模化、专业化与全行业渗透

SRE 组织的发展并非一蹴而就,而是呈现出清晰的规模化与专业化演进轨迹。

2010 年至 2015 年,以 Google 为代表的互联网巨头率先试点,此时的 SRE 团队多为 10 人以下的混合角色,承担着开发与运维的双重职责。

2016 年至 2020 年,随着云技术普及,SRE 团队规模扩展至 10-50 人,形成『嵌入式 SRE+平台 SRE』的双轨架构,开始出现专业化分工。

2021 年至今,SRE 进入大规模集群发展阶段,50-500 人的团队成为大型企业标配,如腾讯互联技术运营部门的 400多人的 SRE 团队,正是通过垂直领域专家与平台基础设施团队的协同,支撑起复杂业务的可靠运行。

技术融合成为 SRE 进化的核心驱动力,这些技术革新并未拓展运维的业务边界,而是为实现原有目标提供了更高效的方法支撑。

工作理念的转变更推动了工作内容的升级,『左移』实践的深化让 SRE 从传统运维『事后处理』的工作模式中脱离,提前介入业务设计阶段,通过架构评审将可靠性需求前置。

而日志、指标、追踪三位一体的全链路可观测性体系,则将故障定位从传统运维的『经验排查』升级为『数据驱动』,定位时间从小时级压缩至分钟级,这些变化都体现了工作方法的系统性革新。

从行业渗透来看,SRE 已从互联网行业向金融、电信、制造业全面扩展。

大型传统企业如航司,也在通过 SRE 培训提升全员可靠性意识,加速数字化转型进程。

这种全行业的渗透趋势,印证了 SRE 模式的普适性与价值。

7 转型的管理难点与破解之道:从人才到文化的系统重构

SRE 转型绝非简单的岗位更名或工具升级,而是涉及人才、文化、架构的全面重构,过程中面临的管理挑战尤为突出。

人才转型困境首当其冲,其核心矛盾在于:运维的业务目标与范围未变,仍需围绕业务系统的稳定运行展开,但 SRE 对工作理念与能力的要求却发生了质变。

传统运维人员普遍习惯于『按流程执行操作』的被动理念,缺乏 SRE 所需的编程能力与工程化思维,与的全栈要求存在巨大差距,同时长期的工作惯性导致转型意愿低下,人员流失风险居高不下,案例中『原来的运维人员要么转型为 SRE,要么离开』的现象,本质上是理念与能力不匹配导致的结果,而非工作目标的重构。

破解人才难题需要构建阶梯式能力提升体系与差异化转型策略。

针对不同基础的人员,需实施差异化策略:对有开发基础的人员重点培养分布式系统设计能力,对网络或系统专家则强化自动化编程技能,同时建立"运维开发工程师"双轨晋升通道,使核心人才保留率提升 30%。

文化冲突与融合是转型的另一核心难点。

传统运维『维稳优先』的思维与 SRE『平衡创新与稳定』的理念存在本质差异,『拒绝变化』的惯性思维使得跨部门协作阻力重重。

解决这一问题的关键在于建立以『信任与透明』为核心的 SRE 文化,错误预算机制便是重要抓手——通过量化可接受的故障范围,避免『零事故』要求对创新的束缚,当线上出现问题时,团队关注的是『系统学到了什么』而非『谁犯了错』。

同时,通过定期故障复盘(RCA)、混沌工程演练、跨部门『午餐学习会』等文化仪式,强化全员的可靠性意识与协作能力,某团队引入 SLO 看板和故障复盘制度后,不仅系统稳定性提升,团队协作氛围也显著改善。

组织架构调整的难点则在于平衡集中管理与业务自治,避免 SRE 成为新的效率瓶颈。

同时,通过服务级别契约(SLO)明确各业务线的可靠性目标与责任边界,将 SLO 与业务 KPI 挂钩,确保技术目标与业务价值对齐,某银行实施这一模式后,核心服务可用性与客户满意度均实现显著提升。

8 案例启示:SRE 进化的核心逻辑与行动方向

腾讯集团从 2021 年设立 SRE 岗位到 2025 年形成成熟团队架构的进化历程,为行业提供了宝贵经验。

这一过程中,公司始终明确:保障业务系统稳定支撑业务发展的核心目标从未改变,变化的是达成目标的路径与方法。

其转型成功的关键在于坚持『能力先行、工具平台化、架构适配、文化重塑』的四维策略,精准回应了理念与方法革新的需求:通过选派骨干参加 SRE 培训并开展内部传帮带,推动团队从『操作思维』向『工程思维』转变。

唯有以系统思维推进人才、文化、架构的全面变革,才能真正发挥 SRE 的价值,在复杂多变的技术环境中实现业务的持续稳定增长。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 持续交付2.0 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2 腾讯互娱 SRE 组织的进化历程
  • 3 深度解析:从传统运维到可靠性工程的必然跨越
  • 4 转型的必然性:传统运维的困境与 SRE 的本质突破
  • 5 变与不变:价值坚守与模式创新
  • 6 SRE 组织的进化趋势:规模化、专业化与全行业渗透
  • 7 转型的管理难点与破解之道:从人才到文化的系统重构
  • 8 案例启示:SRE 进化的核心逻辑与行动方向
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档