首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SRE系列(第 5 篇)腾讯互娱 SRE进化史:从传统走向未来

SRE系列(第 5 篇)腾讯互娱 SRE进化史:从传统走向未来

作者头像
用户10377957
发布2026-06-17 21:17:31
发布2026-06-17 21:17:31
70
举报
SRE 这一术语在国内出现的时间要大大的晚于国外。但它的软件工程思想却并不算晚。

在 2016 年《SRE:Google 运维解密》正式出版后,SRE 才开始被国内技术运营领域所关注并传播。

2017 - 2018 年,阿里、腾讯等大型互联网公司以及部分外企在国内的研发机构,开始逐步应用 SRE 相关理念并尝试组建 SRE 团队。此后 SRE 词汇逐渐在运维圈、技术论坛和企业技术文档中普及,成为互联网运维领域的核心术语之一。

本文是 SRE 系列的第 5 篇,主要想分享一下腾讯互娱技术运营部主导的腾讯蓝鲸平台(BlueKing)的进化史。

1 引言

腾讯互娱事业群(IEG)的技术运营部主导的腾讯蓝鲸平台(BlueKing)经过多年的发展,现在已发展成为一个完整的、功能比较完善的软件工程管理的支撑平台。

出于拥抱开源,回馈社区的目的,蓝鲸平台已在 github 和 gitee 上开源。并与社区保持紧密合作,不断完善和优化平台功能,并且,已被多家科技企业采纳,行业涉及金融、能源、运营商、交通等多个领域。

开源地址:

  1. https://github.com/TencentBlueKing
  2. https://gitee.com/Tencent-BlueKing

2 腾讯蓝鲸平台的系统框架

下面是腾讯蓝鲸平台的系统框架图:

蓝鲸平台系统框架
蓝鲸平台系统框架

图中可见,其已覆盖 PreCI/CI/CD/CO 多个领域,也是其进化多年的必然结果。

3 腾讯蓝鲸平台的发展历程

下面是腾讯 IEG 技术运营组织体系的发展历程,可以看出 IEG 技术运营体系进化的指导思想的升级与进化,也可以看作是腾讯蓝鲸平台(BlueKing)的进化时间表。

蓝鲸平台进化时间表
蓝鲸平台进化时间表

在数字化时代,游戏行业作为技术密集型产业,其运维服务模式经历了从传统人工操作到智能化运维的深刻变革。

腾讯游戏作为国内领先的游戏厂商,其运维服务模式的演进历程不仅反映了行业发展趋势,也为 SRESite Reliability Engineering,站点可靠性工程)在国内的落地实践提供了宝贵经验。

4 腾讯游戏运维服务模式的演进历程

自动化转型阶段(2012-2014)

2012 年,腾讯游戏开始普及 web 自动化,标志着传统运维向运维开发的大规模转型。这一阶段,运维团队开始将重复性的手动操作转化为自动化脚本,提高了工作效率,减少了人为错误。

2014 年,随着业务规模的扩大,腾讯游戏进一步普及了跨系统调度自动化和故障自愈能力。

通过构建统一的调度平台,实现了不同系统间的协同工作,同时引入自动故障检测和恢复机制,大大缩短了故障响应时间。

无人值守与数据化阶段(2015-2017)

2015 年,腾讯游戏实现了基础运维的『无人值守』,运维人员从繁琐的日常操作中解放出来,能够将更多精力投入到高价值的工作中,如架构优化、性能调优和技术创新。

为了应对业务运营需求,出现了有很多相对独立的工具和系统,比如监控系统、告警系统、日志系统等。

这些系统之间通常是烟囱式的,数据孤岛严重,导致了很多问题。

2016 年,数据化运维正式启动。每个系统都有自己的监控和告警机制。这导致了很多问题,比如监控数据孤岛、告警风暴等。

蓝鲸平台SRE
蓝鲸平台SRE

腾讯游戏开始建立完善的监控体系和指标体系,通过数据分析指导运维决策。

到 2017 年,数据化运维得到全面普及,同时随着微服务架构容器技术的兴起,运维模式也随之升级,更加灵活和高效。

蓝鲸平台SRE
蓝鲸平台SRE

智能化与研运一体化阶段(2018-2019)

2018 年,AIOPs(智能运维)理念在腾讯游戏得到深入应用。通过引入机器学习人工智能技术,加强了异常检测根因分析的的能力。

与此同时,在国内DevOps领域专家乔梁的指导下,引入研发运营一体化(DevOps)思想,又开发了 蓝盾流水线产品。它加强了开发和运维的协同,系统地强化了从代码编写到制品入库及运营上线的案例性,也通过自动化和自助化服务,有效地减少了繁复的手工操作,缩短了从开发到上线的周期。

蓝鲸平台SRE
蓝鲸平台SRE

2019 年,腾讯游戏进一步推进开源协同研发运营一体化蓝盾流水线产品现已成为全公司范围内的标准化可复用的持续交付流水线的基础底座。进一步促进了研发和运营之间的协作,形成了高效协同的工作模式。

5 SRE 理念在腾讯游戏的落地实践

SRE 核心思想的融入

腾讯游戏的运维演进过程中,虽然没有明确提出 SRE的概念,但实际上已经在践行SRE 的核心思想:将运维视为软件工程问题,通过代码和自动化工具解决系统可靠性挑战。

从 2015 年开始,腾讯互娱事业群(IEG)的技术运营部就开始了类似 SRE 的转型,设立了运营开发工程师这个细分岗位,负责开发和维护运维相关的工具和平台,提升运维效率和质量。

这也为招聘具有更强软件工程能力的运维工程师提供了更多的机会。

量化管理与目标设定

在数据化运维阶段,腾讯游戏建立了完善的指标体系。通过设定明确的量化目标,指导团队的工作方向,同时也为评估运维工作的效果提供了客观依据。

自动化与平台化建设

腾讯游戏通过蓝鲸平台工具平台,将运维经验和最佳实践固化为可复用的工具和流程。

这些平台不仅提高了运维效率,也降低了对人员技能的依赖,使运维工作更加标准化和规范化。

6 腾讯游戏运维演进的启示

渐进式转型的重要性

腾讯游戏的运维转型不是一蹴而就的,而是经历了从自动化到数据化,再到智能化的渐进过程。

这种渐进式转型避免了激进变革带来的风险,同时也给团队留出了学习和适应的时间。

技术与组织并重

在技术升级的同时,腾讯游戏也注重组织架构和人员能力的提升。

通过设立运营开发工程师等新岗位,吸引和培养了一批既懂运维又懂开发的复合型人才,为运维转型提供了人才保障。

开放合作的价值

2019 年开始的开源协同,体现了腾讯游戏在运维领域的开放态度。通过与开源社区的合作,既可以将自身的实践成果分享给行业,也可以从中获取更多先进经验。这推动整个行业的发展。

7 结语

腾讯游戏运维服务模式的演进历程,是中国互联网企业探索 SRE 实践的一个缩影。从最初的自动化转型,到数据化运维,再到智能化和一体化,腾讯游戏走出了一条符合自身特点的运维发展道路。

对于正在推进 SRE建设的企业来说,可以从腾讯游戏的经验中汲取养分,结合自身实际情况,制定适合的SRE 实施路径。

SRE 不仅仅是一种技术实践,更是一种组织文化的变革,需要管理层的支持、团队的配合和持续的投入。

通过 SRE 实践,企业可以在保证系统可靠性的同时,提高开发效率,加速业务创新。

为企业的数字化转型提供强有力的技术支撑。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 持续交付2.0 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 引言
  • 2 腾讯蓝鲸平台的系统框架
  • 3 腾讯蓝鲸平台的发展历程
  • 4 腾讯游戏运维服务模式的演进历程
    • 自动化转型阶段(2012-2014)
    • 无人值守与数据化阶段(2015-2017)
    • 智能化与研运一体化阶段(2018-2019)
  • 5 SRE 理念在腾讯游戏的落地实践
    • SRE 核心思想的融入
    • 量化管理与目标设定
    • 自动化与平台化建设
  • 6 腾讯游戏运维演进的启示
    • 渐进式转型的重要性
    • 技术与组织并重
    • 开放合作的价值
  • 7 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档