在上一篇中,我们介绍了 腾讯互娱技术运营团队从传统运维到 SRE 转型的时间线。本篇将进一步探讨这一转型过程中,组织架构与人才文化等方面的变化。
需要提醒大家的是:
腾讯互娱事业群是一个万人组织,技术运营团队包含400个 SRE,30多个业务运维人员,以及60多个内包运维人员,负责全球 40 多万台服务器的技术运营工作。

下面是腾讯互娱内部 SRE 组织所经历的过程。
由此可见,业务运维只有极少量的业务运维,以内包为主。
那么,原来的运维人员去了哪里呢?他们要么转型为 SRE,要么就离开了。
而在 SRE 团队,不同小组的能力关注点也各有侧重。
这就形成了内部SRE能力现代化 + 运营平台通用化 + 外部业务运维灵活化的模式。
腾讯互娱在 2013 年开始正式招聘软件开发工程师,到 2021 年腾讯公司正式设立 SRE 岗位,可以说是用了七年时间完成了从无到有的过程。
再经过四年的经营(截止到了 2025 年 10 月),基本上形成了『400 SRE+30 业务运维+60 个内包运维』的团队组织与人才格局。
这一进化堪称行业发展的必然选择。值得强调的是,这种转型并非颠覆运维的本质。
从业务领域来看,保障 IT 系统支撑业务连续、稳定运行的核心目标,以及覆盖基础设施、应用服务的工作范围,均未发生根本性变化。
真正的变革,发生在实现这一目标的工作理念、核心原则与具体方法上。
传统运维模式在复杂业务与技术架构面前的局限性日益凸显,SRE(站点可靠性工程)正是通过理念与方法的革新,成为组织突破运维瓶颈、实现价值升级的核心路径。
传统运维模式曾在 IT 发展初期发挥了重要作用,但随着云原生、微服务架构的普及和业务规模的指数级增长,其固有的系统性缺陷逐渐成为发展桎梏。
1. 效率层面,传统运维过度依赖人工操作,面对海量告警和高频变更时往往手忙脚乱,故障响应与恢复时间被大幅拉长。
有数据显示,传统模式下运维人员 70%的精力都消耗在重复的人工处理中。
2. 可靠性方面,『被动救火』成为常态,缺乏提前预防的技术手段和流程机制,故障频发且影响范围难以控制。
尤其在金融、电信等对稳定性要求极高的行业,一次突发故障可能引发连锁反应。
3. 人才结构与协作模式的问题同样突出。
传统运维人员技能单一,多局限于系统操作层面,难以应对分布式系统的复杂性。开发与运维之间的『部门墙』森严,前者重功能交付、后者重系统稳定,责任推诿现象时有发生,导致业务交付周期延长。
4. 成本控制方面,随着业务扩张,传统运维需要持续增加人力投入,却难以实现产出的同比例增长,人力成本与运维价值呈现严重失衡。
SRE 的出现恰好破解了这些困境,其核心是 Google 提出的『通过软件工程的方式设计运维体系』的理念,实现了从职能化运维到工程化可靠的本质跨越。
需要明确的是,SRE 与传统运维在业务价值诉求上高度一致,『保障系统稳定运行』始终是核心目标,这与传统运维的工作宗旨一脉相承。
但在实现路径上,两者却存在天壤之别:与传统运维相比,SRE 彻底重塑了工作理念与原则,将『可靠性是设计出来的』作为核心原则,取代了传统运维『被动应对故障』的惯性思维。
而腾讯互娱的 SRE 走得更坚定且更远。
在工作内容与方法上,腾讯互娱的 SRE 将软件工程方法全面融入运维全流程,至少把 50% 的精力投入到自动化工具开发和架构优化中,通过基础设施即代码(IaC)、自动化巡检等手段,将重复性工作减少 80% 以上。
在协作模式上更有创新探索。腾讯 SRE 进一步打破了开发与运维的壁垒,实现了新式的『开发运维一体化』。
有一些 SRE 直接参与到业务方的日常工作中。他们与业务团队一起做日常开发工作,主要完成业务服务稳定性有关的组件定制与配置的日常开发维护。
这种方式在快速响应业务稳定性需求方面有很大的优势。
这些 SRE 既掌握运营平台与各种组件的最佳使用方式(业务侧的开发要了解各种组件的使用,还是有一定的成本),又能直接参与业务侧的日常工作与沟通。
通过对所服务的业务团队需求的精准理解,能够以‘现时现地’的方式解决业务稳定运营的痛点。
关于这种“通用平台+插件生态”的建设方式与成功要素,我们在下一篇 SRE 文章中再详细讨论。
更关键的是,SRE 建立了以 SLI(服务级别指标)、SLO(服务级别目标)、SLA(服务级别协议)为核心的量化管理体系,将模糊的『稳定』转化为可衡量、可落地的指标。
这种从被动响应到主动预防的转变,从职能隔离到协同共生的升级,正是 SRE 成为转型必然的核心逻辑。
简而言之,SRE 与传统运维的区别可归结为以下几个维度。
维度 | 传统运维 | SRE 模式 | 价值提升 |
|---|---|---|---|
思维方式 | 『维稳优先』 | 『可靠性是设计出来的』 | 从被动响应到主动预防 |
工作重心 | 事务性处理(70%) | 自动化与架构优化(50%) | 减少 80% 重复性工作(琐事) |
协作模式 | 职能孤岛 | 开发运维深度融合 | 服务更可靠 |
衡量标准 | 无统一量化指导 | SLI/SLO/SLA 指标体系 | 服务可用性 ↑0.3%,投诉 ↓22% |
人才要求 | 系统运维操作能手 | 『掌运维、能编码、懂业务』全栈工程师 | 人员价值提升 3-5 倍 |
SRE 组织的发展并非一蹴而就,而是呈现出清晰的规模化与专业化演进轨迹。
2010 年至 2015 年,以 Google 为代表的互联网巨头率先试点,此时的 SRE 团队多为 10 人以下的混合角色,承担着开发与运维的双重职责。
2016 年至 2020 年,随着云技术普及,SRE 团队规模扩展至 10-50 人,形成『嵌入式 SRE+平台 SRE』的双轨架构,开始出现专业化分工。
2021 年至今,SRE 进入大规模集群发展阶段,50-500 人的团队成为大型企业标配,如腾讯互联技术运营部门的 400多人的 SRE 团队,正是通过垂直领域专家与平台基础设施团队的协同,支撑起复杂业务的可靠运行。
技术融合成为 SRE 进化的核心驱动力,这些技术革新并未拓展运维的业务边界,而是为实现原有目标提供了更高效的方法支撑。
工作理念的转变更推动了工作内容的升级,『左移』实践的深化让 SRE 从传统运维『事后处理』的工作模式中脱离,提前介入业务设计阶段,通过架构评审将可靠性需求前置。
而日志、指标、追踪三位一体的全链路可观测性体系,则将故障定位从传统运维的『经验排查』升级为『数据驱动』,定位时间从小时级压缩至分钟级,这些变化都体现了工作方法的系统性革新。
从行业渗透来看,SRE 已从互联网行业向金融、电信、制造业全面扩展。
大型传统企业如航司,也在通过 SRE 培训提升全员可靠性意识,加速数字化转型进程。
这种全行业的渗透趋势,印证了 SRE 模式的普适性与价值。
SRE 转型绝非简单的岗位更名或工具升级,而是涉及人才、文化、架构的全面重构,过程中面临的管理挑战尤为突出。
人才转型困境首当其冲,其核心矛盾在于:运维的业务目标与范围未变,仍需围绕业务系统的稳定运行展开,但 SRE 对工作理念与能力的要求却发生了质变。
传统运维人员普遍习惯于『按流程执行操作』的被动理念,缺乏 SRE 所需的编程能力与工程化思维,与的全栈要求存在巨大差距,同时长期的工作惯性导致转型意愿低下,人员流失风险居高不下,案例中『原来的运维人员要么转型为 SRE,要么离开』的现象,本质上是理念与能力不匹配导致的结果,而非工作目标的重构。
破解人才难题需要构建阶梯式能力提升体系与差异化转型策略。
针对不同基础的人员,需实施差异化策略:对有开发基础的人员重点培养分布式系统设计能力,对网络或系统专家则强化自动化编程技能,同时建立"运维开发工程师"双轨晋升通道,使核心人才保留率提升 30%。
文化冲突与融合是转型的另一核心难点。
传统运维『维稳优先』的思维与 SRE『平衡创新与稳定』的理念存在本质差异,『拒绝变化』的惯性思维使得跨部门协作阻力重重。
解决这一问题的关键在于建立以『信任与透明』为核心的 SRE 文化,错误预算机制便是重要抓手——通过量化可接受的故障范围,避免『零事故』要求对创新的束缚,当线上出现问题时,团队关注的是『系统学到了什么』而非『谁犯了错』。
同时,通过定期故障复盘(RCA)、混沌工程演练、跨部门『午餐学习会』等文化仪式,强化全员的可靠性意识与协作能力,某团队引入 SLO 看板和故障复盘制度后,不仅系统稳定性提升,团队协作氛围也显著改善。
组织架构调整的难点则在于平衡集中管理与业务自治,避免 SRE 成为新的效率瓶颈。
同时,通过服务级别契约(SLO)明确各业务线的可靠性目标与责任边界,将 SLO 与业务 KPI 挂钩,确保技术目标与业务价值对齐,某银行实施这一模式后,核心服务可用性与客户满意度均实现显著提升。
腾讯集团从 2021 年设立 SRE 岗位到 2025 年形成成熟团队架构的进化历程,为行业提供了宝贵经验。
这一过程中,公司始终明确:保障业务系统稳定支撑业务发展的核心目标从未改变,变化的是达成目标的路径与方法。
其转型成功的关键在于坚持『能力先行、工具平台化、架构适配、文化重塑』的四维策略,精准回应了理念与方法革新的需求:通过选派骨干参加 SRE 培训并开展内部传帮带,推动团队从『操作思维』向『工程思维』转变。
唯有以系统思维推进人才、文化、架构的全面变革,才能真正发挥 SRE 的价值,在复杂多变的技术环境中实现业务的持续稳定增长。