在 2016 年《SRE:Google 运维解密》正式出版后,SRE 才开始被国内技术运营领域所关注并传播。
2017 - 2018 年,阿里、腾讯等大型互联网公司以及部分外企在国内的研发机构,开始逐步应用 SRE 相关理念并尝试组建 SRE 团队。此后 SRE 词汇逐渐在运维圈、技术论坛和企业技术文档中普及,成为互联网运维领域的核心术语之一。
本文是 SRE 系列的第 5 篇,主要想分享一下腾讯互娱技术运营部主导的腾讯蓝鲸平台(BlueKing)的进化史。
腾讯互娱事业群(IEG)的技术运营部主导的腾讯蓝鲸平台(BlueKing)经过多年的发展,现在已发展成为一个完整的、功能比较完善的软件工程管理的支撑平台。
出于拥抱开源,回馈社区的目的,蓝鲸平台已在 github 和 gitee 上开源。并与社区保持紧密合作,不断完善和优化平台功能,并且,已被多家科技企业采纳,行业涉及金融、能源、运营商、交通等多个领域。
开源地址:
下面是腾讯蓝鲸平台的系统框架图:

图中可见,其已覆盖 PreCI/CI/CD/CO 多个领域,也是其进化多年的必然结果。
下面是腾讯 IEG 技术运营组织体系的发展历程,可以看出 IEG 技术运营体系进化的指导思想的升级与进化,也可以看作是腾讯蓝鲸平台(BlueKing)的进化时间表。

在数字化时代,游戏行业作为技术密集型产业,其运维服务模式经历了从传统人工操作到智能化运维的深刻变革。
腾讯游戏作为国内领先的游戏厂商,其运维服务模式的演进历程不仅反映了行业发展趋势,也为 SRE(Site Reliability Engineering,站点可靠性工程)在国内的落地实践提供了宝贵经验。
2012 年,腾讯游戏开始普及 web 自动化,标志着传统运维向运维开发的大规模转型。这一阶段,运维团队开始将重复性的手动操作转化为自动化脚本,提高了工作效率,减少了人为错误。
2014 年,随着业务规模的扩大,腾讯游戏进一步普及了跨系统调度自动化和故障自愈能力。
通过构建统一的调度平台,实现了不同系统间的协同工作,同时引入自动故障检测和恢复机制,大大缩短了故障响应时间。
2015 年,腾讯游戏实现了基础运维的『无人值守』,运维人员从繁琐的日常操作中解放出来,能够将更多精力投入到高价值的工作中,如架构优化、性能调优和技术创新。
为了应对业务运营需求,出现了有很多相对独立的工具和系统,比如监控系统、告警系统、日志系统等。
这些系统之间通常是烟囱式的,数据孤岛严重,导致了很多问题。
2016 年,数据化运维正式启动。每个系统都有自己的监控和告警机制。这导致了很多问题,比如监控数据孤岛、告警风暴等。

腾讯游戏开始建立完善的监控体系和指标体系,通过数据分析指导运维决策。
到 2017 年,数据化运维得到全面普及,同时随着微服务架构和容器技术的兴起,运维模式也随之升级,更加灵活和高效。

2018 年,AIOPs(智能运维)理念在腾讯游戏得到深入应用。通过引入机器学习和人工智能技术,加强了异常检测、根因分析的的能力。
与此同时,在国内DevOps领域专家乔梁的指导下,引入研发运营一体化(DevOps)思想,又开发了 蓝盾流水线产品。它加强了开发和运维的协同,系统地强化了从代码编写到制品入库及运营上线的案例性,也通过自动化和自助化服务,有效地减少了繁复的手工操作,缩短了从开发到上线的周期。

2019 年,腾讯游戏进一步推进开源协同和研发运营一体化,蓝盾流水线产品现已成为全公司范围内的标准化、可复用的持续交付流水线的基础底座。进一步促进了研发和运营之间的协作,形成了高效协同的工作模式。
腾讯游戏的运维演进过程中,虽然没有明确提出 SRE的概念,但实际上已经在践行SRE 的核心思想:将运维视为软件工程问题,通过代码和自动化工具解决系统可靠性挑战。
从 2015 年开始,腾讯互娱事业群(IEG)的技术运营部就开始了类似 SRE 的转型,设立了运营开发工程师这个细分岗位,负责开发和维护运维相关的工具和平台,提升运维效率和质量。
这也为招聘具有更强软件工程能力的运维工程师提供了更多的机会。
在数据化运维阶段,腾讯游戏建立了完善的指标体系。通过设定明确的量化目标,指导团队的工作方向,同时也为评估运维工作的效果提供了客观依据。
腾讯游戏通过蓝鲸平台工具平台,将运维经验和最佳实践固化为可复用的工具和流程。
这些平台不仅提高了运维效率,也降低了对人员技能的依赖,使运维工作更加标准化和规范化。
腾讯游戏的运维转型不是一蹴而就的,而是经历了从自动化到数据化,再到智能化的渐进过程。
这种渐进式转型避免了激进变革带来的风险,同时也给团队留出了学习和适应的时间。
在技术升级的同时,腾讯游戏也注重组织架构和人员能力的提升。
通过设立运营开发工程师等新岗位,吸引和培养了一批既懂运维又懂开发的复合型人才,为运维转型提供了人才保障。
2019 年开始的开源协同,体现了腾讯游戏在运维领域的开放态度。通过与开源社区的合作,既可以将自身的实践成果分享给行业,也可以从中获取更多先进经验。这推动整个行业的发展。
腾讯游戏运维服务模式的演进历程,是中国互联网企业探索 SRE 实践的一个缩影。从最初的自动化转型,到数据化运维,再到智能化和一体化,腾讯游戏走出了一条符合自身特点的运维发展道路。
对于正在推进 SRE建设的企业来说,可以从腾讯游戏的经验中汲取养分,结合自身实际情况,制定适合的SRE 实施路径。
SRE 不仅仅是一种技术实践,更是一种组织文化的变革,需要管理层的支持、团队的配合和持续的投入。
通过 SRE 实践,企业可以在保证系统可靠性的同时,提高开发效率,加速业务创新。
为企业的数字化转型提供强有力的技术支撑。