直面可观测三重挑战 阿维塔作为车企,在数字化转型中面临可观测体系与业务发展的核心冲突。 业务复杂度激增:车云系统架构模块众多、调用链冗长(覆盖车载终端至云端AI计算全链条),业务迭代迅猛致运维适应性承压,瓶颈定位难(单点故障易传导放大影响用户体验),运维效率受海量告警与复杂问题冲击。 智能化分析能力: AI异常检测:自动识别系统异常,变被动告警为主动预警(数据来源:阿维塔运维总监孙旸在腾讯全球数字生态大会分享)。 期待与腾讯云携手,共同构建更智能、更高效、更可靠的未来出行生态 —— 孙旸,阿维塔运维总监 量化运维效能提升成果 方案落地后实现可观测能力从“被动响应”向“主动防御”转型。 AI驱动主动运维:智能异常检测、根因分析、告警治理形成闭环,变“被动救火”为“主动防御”(数据来源:平台AI功能实测效果)。
车企数字化运维面临核心挑战 随着智能汽车业务高速发展,阿维塔车云系统模块激增、调用链冗长,传统运维手段面临三大瓶颈:业务复杂度高导致故障定位困难;混合云环境下存在数据孤岛与资源纳管难题;智能化时代需应对 这些因素共同导致运维效率承压,直接影响用户体验与业务连续性。 腾讯云一体化可观测解决方案 腾讯云可观测平台通过全栈资源监控+端到端链路追踪体系,为阿维塔构建了覆盖资源层、应用层、体验层的立体化监控: 资源层:实现跨云统一纳管,监控覆盖计算、存储、网络及中间件 应用层 客户证言与场景验证 “期待与腾讯云携手,共同构建更智能、更高效、更可靠的未来出行生态” —— 孙旸,阿维塔运维总监 腾讯云的核心价值主张 腾讯云可观测平台的差异化优势体现在: AI驱动智能运维:提供智能异常检测 数据来源:腾讯全球数字生态大会阿维塔运维总监孙旸演讲材料 技术实现:腾讯云可观测平台(TCOP)AI能力
测试经理如何系统性保障软件产品质量 —— 从被动防御到主动构建质量体系作为测试经理,你的核心使命不是“找更多Bug”,而是构建一套可持续、可度量、可进化的质量保障体系,让质量成为产品基因,而非事后补救。 实践“测试右移” (Shift-Right Testing)线上监控与预警:与运维团队合作,建立线上质量监控体系(如错误日志监控、性能指标监控),在问题影响用户前发现并解决。 二、执行层:构建“四维一体”测试防护网维度1:分层自动化测试(金字塔模型)graph TD A[UI自动化
10%-15%] -->|验证端到端流程| B(业务价值) C[API自动化 质量责任指标 产品经理 需求缺陷率(需求变更导致的Bug占比)开发工程师单元测试覆盖率、千行代码缺陷率 测试工程师缺陷逃逸率、自动化用例有效性 运维工程师生产环境 自动化服务于ROI,核心路径优先 “质量是测试部的责任” 推动全员质量责任制 “用例数量=工作量” 用例有效性 > 数量,定期清理冗余 “害怕生产环境” 建立渐进式发布
而运维在这个生命周期中的每个阶段都有可能参与: 设计阶段: 主要针对系统架构设计的合理性进行评估,包括是否存在单点,是否可以容错,是否有强耦合等。 通过运维的基本工作,我们来看看一个运维人员需要掌握的知识体系: 操作系统: Ubuntu,CentOS,Redhat web: nginx,apache ,tomcat 监控: zabbix 在众多的技能体系中,很多人习惯于研究一个又一个关键永远都学不完。其实运维的发展是从最原始的人工阶段慢慢过渡到工具和自动化阶段,最后才是平台化阶段。 很多人提高了智能运维,其实智能运维的应用已经在国内的百度,搜狗,阿里等企业开始尝试和摸索。 目前智能运维主要被用于故障分析,根据故障的现象,快速定位问题。 智能运维还不是小公司的研究范畴,但总有一天会被普及。当然我们也不必因为智能的发展而忧心忡忡,毕竟时间万物的发展,有新的事务出现,必将有新的岗位代替旧的岗位。 我们只要用心去掌握新岗位的技能就行了。
先谈流程体系的建设: 新时代的运维已经不涉及IDC机房,交换机,路由器,服务器硬件,各种中间件和基础组件。 这种现状会让运维会站在从研发到应用交付的层面上看待运维保障工作,因此运维的规划可以集中在研发效能体系建设,监控体系建设,变更体系建设,最后是运营体系建设。 先谈一下基础体系--变更体系,线上的变更:涉及到运维基础层,运维应用层,应用层,业务层, 变更的所属层级越低,影响面和破坏力就越大。 专业技术方面的建设: 发现问题是监控体系干的事情,解决问题是运维事件管理/运维问题管理等偏向技术运营体系干的事情, 两者相互促进。 告警事件产生的问题/或者人为反馈的问题(技术相关的),转交到运维人员手中,运维人员有不同的处理方式来解决。一种是较浅层次就事解决事。
这是学习笔记的第 1890 篇文章 今天把运维开发的体系做了一层梳理,基本把一个整体的脉络理清楚了,这部分的内容也会不断萃取和整理,希望能够给大家一些参考。 ? 所以把shell也揉入了进来,基本的系统管理和脚本开发是运维开发的基本功。 基于web的运维开发技术,是在基础开发的部分衍生出来的,掌握了基本的Python技术不一定能够完全掌握基于web的开发技术,因为不是完整的一个技术栈,web方向涉及的知识体系相对要大得多,而且会很杂。 架构和设计是运维开发里面的难点部分,其中自动化运维的架构设计部分就好比是画一幅画,如果把轮廓画好了,基本上画的质量和效果是可以预见的。一个松散没有良好架构设计的系统是很脆弱的,也是经不起考验的。 运维管理模块我会主要从基础运维,备份恢复,高可用管理,分布式管理几个部分进行产品设计和集成实现。
运维人不再“救火”:数据驱动才是主动运维的底气 “运维=救火队”?你也太低估它了!作为一个“打过补丁、熬过大夜、啃过故障单”的老运维,我想说句实话:传统运维,说白了就是“哪里着火,往哪儿跑”。 系统挂了,才开始排查;磁盘满了,才开始清理;用户骂了,才知道卡顿……这不是运维,这是“被动接锅侠”!但你别急,这两年形势真变了:数据,开始让运维变“主动”了。 从“亡羊补牢”到“预判于未发”,数据驱动的运维,才是未来的正道。 什么是“数据驱动的主动运维”?一句话解释:就是靠数据说话,不靠报警响了再动手。 这就是主动 VS 被动的差别! 用 Python 模拟一个“主动运维”的小模型来,咱不光讲概念,咱还上代码! 那么,运维怎么从“被动”进化到“主动”?
为应对我国DNS安全挑战,亟需从PDNS基础体系、威胁情报收集、风险智能检测、国家级实践等维度,系统研究主动防御域名系统关键技术,为构建自主可控的PDNS体系提供支撑。 二、研究重点围绕主动防御域名系统构建与落地,本研究从以下四个核心层面展开关键技术攻关,形成全链条技术体系:1.PDNS基础体系构建:厘清传统DNS缺陷与加密DNS影响,明确PDNS发展背景、功能特点及核心组件 3.根结构中心化:ICANN管控全球顶级域,威瑞信运维根区数据,存在管理者删除资源记录使特定域名“消失”风险,威胁域名解析自主性。 2.核心组件解析节点集群:基于Anycast技术分布式部署,支持 DNSSEC、DoH/DoT,可快速响应漏洞威胁;DNS过滤策略:整合开源与商用威胁情报,检查域名/IP合法性,通过“重定向至安全站点” 六、国家级PDNS建设现状与实践国际社会已普遍开展国家级PDNS建设,其经验为我国PDNS发展提供重要参考,主要国家/地区建设情况如下:七、结论与发展前景(一)研究结论本研究系统构建了主动防御域名系统关键技术体系
运维工作,一定要改变后之后觉的局面,一定要学会主动运维。 监控是运维人员的“眼睛”,离散的告警信息和不全面的业务指标,会导致运维人员无法全面了解业务运维的质量情况,无法判断运营趋势,会导致“头痛医头,脚痛医脚”的措施,无法迅速彻底地解决运营问题......
园区网络运维的现状与挑战随着数字化转型加速,中大型园区网络承载的业务场景日益复杂,从智能办公、物联设备接入到生产系统互联,网络规模与流量呈指数级增长。 传统运维模式面临三大挑战:运维碎片化:有线、无线网络设备分散管理,缺乏统一视图;故障响应滞后:依赖人工巡检与日志分析,定位效率低;成本压力:专用硬件(如TAP分流器)和独立分析工具的采购与维护成本高昂。 在此背景下,基于云化架构的新一代园区网络应运而生,其核心目标是通过智能化、可视化的运维能力,重构园区网络的运营效率。 新一代云化园区网络的核心优势在前期完成云化网络架构部署的基础上(参见前篇:技术背景与业务开通实践),运维能力的全面升级成为关键。 新一代方案通过以下三大能力实现运维范式的转型:能力1:网络可视:从全局到流量的立体洞察基础设施状态集中监控通过Asteria Campus Controller(ACC)提供统一的运维界面,管理员可实时查看全网设备健康状态
运维知识体系 基础设施层 公有云,私有云(OpenStack/cloudstack + KVM/XEN,oVirt), 混合云 服务监控 配置管理 硬件选型、配件更换、资产录入、系统安装(Cobbler :应用层分片,淘宝TDDL,开源360(Atlas),阿里(Cobar), MyCat, MySQL-Proxy, 根据业务开发 监控体系同上 自动化/DevOps同上 云计算:数据库服务 分布式缓存 运维管理体系 ITSM ITIL V3 IT Service CMM Six Sigma DevOps Master 项目管理(PMBok) 知识体系 运维方案 容量规划 灾备规划 服务降级 运维协助 性能测试(TCPCopy,日志转换) 单机监控(nmon) 环境规划(开发,测试,预生产,生产) CI(持续集成)自动化部署 Operations as a Service 运维咨询 运维托管 技术培训 应急处理 产品即服务 DevOps专家服务 参考: 运维知识体系
运维行业正在变革,推荐阅读:30万年薪Linux运维工程师成长魔法 运维流程管理工具 发布变更流程管理工具:做为系统接口与其他角色的工作衔接。并提供审批环节控制发布变更的风险。 运维发布变更工具 版本管理工具(数据库):所有的发布应该以版本管理为起点。研发给的版本包先入版本管理工具,再从版本管理工具分发到现网发布。杜绝 rsync 一台服务器发布另外一台的做法。 资源管理和隔离工具:以xen/kvm为代表的工具让运维可以更灵活的切割资源。比如虚拟机的快速起停,ip在idc内的漂移等。以 lxc/docker 为代表的工具让运维可以进一步的切割资源到进程级别。 运维监控告警工具 采集工具:一般是采集日志文件,也可以是定时轮询 DB 或者其他系统的接口。流行的开源方案是 logstash。 收集工具:采集工具上报给收集工具。 运维事件数据库:记录所有的告警。包括从其他系统获得告警,以及对现网的所有变更操作记录。这些数据用于支撑告警的原因定位。
传统依赖人工的排查模式存在响应滞后、覆盖不全等固有缺陷,而基于 AI 技术的安全隐患排查管理系统通过多维度数据融合与实时分析,正在重塑企业安全防护边界,实现从被动防御到主动预警的战略转型。️ 0.3% 以下攻击拦截成功率达 99.2% 跨平台适配能力全方位支持兼容私有云、公有云及混合架构标准化 API 接口对接现有 SIEM 系统专用解析插件支持物联网设备特殊协议移动端 APP 实现随时随地安全运维边缘设备防护无缝接入摄像头 ,快速完成合规自检生成符合监管要求的审计报告行业深度应用制造业:结合 PLC 数据分析,预警生产线篡改风险金融业:实时监测交易异常,防范金融欺诈电商平台:大促期间成功拦截每秒上千次 CC 攻击️ 纵深防御体系零信任架构集成与身份认证平台深度联动 、应急演练方案配套红蓝对抗服务,验证真实防护水平 总结展望智能 AI 安全隐患排查管理系统通过机器学习算法与安全运营经验的深度融合,不仅显著提升威胁应对效率,更推动企业安全体系实现从“被动补救”到“主动预防 随着威胁环境的不断演变,系统将通过联邦学习、边缘智能等技术的深化应用,持续增强在复杂场景下的防护能力,为企业构建更加智能、主动、可生长的安全防御体系。
为解决上述问题,Gartner适时提出了“AIOps”的概念,这里的“AI”代表的是人工智能,通过机器人的参与将人工智能技术体系带入到运维的各个环节,帮助解决运维问题,运维发展也由此进入智能化阶段。 路网监控,路网识别,包括主动感知车速变化,判断行驶的车辆是否超速。 4.4 分布式主动感知 ? 5)主动感知系统 主动感知系统包括全网Agent、业务Agent、网络Agent、应用Agent,这些都是我们的感知器。 4.5 全网感知模型 ? 图17 用一个例子来细化什么是分布式主动感知。 我们用分布式主动感知的方法,首先建立模型,即职场网络。在职场放一个Agent,因为职场分布在全国各地,本身是全网的,因此称之为全网Agent。 应用感知,包括主动业务异常捕捉和上报。 4.9 收益 ? 图23 分布式主动感知的收益包括: 更丰富的画像和拓扑 更有价值的监控数据 知识图谱 根因分析 异常检测 4.10 问题与前景 ?
这是学习笔记的第 2367篇文章 在大概4年前,我们算是从0到1的构建了现在的数据库运维开发体系,这个过程有较长的启动周期,从我个人主导到后来的成员独当一面,从零星的功能建设到现在有了相对体系化的建设 运维开发这件事情的理念契合,我们花了很长的时间,限于有限的资源和技术储备,我最终选择了Python技术栈,其实第1年是最让我焦虑的,这种焦虑打个比方,就好像我是司机,手里拿着方向盘,车上的乘客的心态是和我完全不同的 Python技术体系的学习和构建。 当然在这个过程中也总结了一些经验,比如对于模块化的思考,早期的OpsManage体系的构建是一个相对独立的Python服务,随着业务的接入,有了MySQL,Redis等数据库,为了对一些运维功能和技术栈有所区别 我开始构建新版本的开发环境,打算从整体设计上能够有所侧重,同时对已有的开发体系进行认真梳理和复盘。
识别运维平台的边界在哪儿,才能更好的构建平台,从而协助运维的日常工作。 在之前的文章中,谈到过【运维的本质--可视化】,在可视化的篇幅中,着重介绍自动化的可视化和数据的可视化;在后续的篇章中又介绍了【互联网运维的价值体系】,里面分解了几个维度:质量、成本、效率、安全等。 找到一个价值方向来牵引整个团队很难,但又必须找到,因这个牵引力就决定了团队的气质及后续的工作方法;之前的【运维价值体系】有详述,在此不细谈。 在早期的文章中把DevOps和ITIL做了对比,ITIL的是面向流程的,这个可以在运维平台建设中不做重点,不要主动去构建流程,会影响运维的敏捷性。 和之前【数据驱动运维】介绍过的,我做了一个数据的分层体系。 8、监控及服务,有数据的地方才有监控。脱离这个原则,你做的都是告警。
内容来源:2018 年 10 月 20 日,源数据库论坛(ODF)发起人周彦伟在“ODF走进名企之贝壳技术沙龙-数据库存储技术的多元应用”进行《使用ArkControl实现MySQL运维体系建设》的演讲分享 阅读字数:2384 | 6分钟阅读 摘要 本次分享的是如何使用ARkcontrol来搭建mysql的运维体系,从功能、架构以及安装内容上来详细介绍ARkcontrol。 最终我们做了一款叫ArkControl的产品,他是一个云管平台,社区版可以免费下载使用,可以一键实现一个比较全面的mysql运维体系,不用花费太多成本就能实现一些数据库运维的基本功能,至少不用再通过命令发去安装 线上数据库的监控方面,我们做了一个分布式的类似于Redis的哨兵,然后用投票的机制来解决数据库判断是否存活的问题,更准确更高效。 还有很重要的一块,也是今后我们发展的重点——智能运维,包括数据库的智能优化,智能的诊断和巡检。实现逐步的从人工的运维转化为智能运维,类似最优化接口或最优化配置等功能。
我写这个文章的动机,还是因为在会后很多人问我,“一个全局的运维体系应该是什么样的?”。这篇文章就给大家一个初步的回答。 ? 价值体系(value) 我在任何场合都在强调运维价值/IT价值和用户价值之间的关系,在精益运维的分享中,我推导过,用户价值可以通过IT价值相互转换的。 那Dev技术架构体系和我运维有什么关系呢?他决定了你维护成本的大与小,维护质量的高与低,维护效率的快与慢!否则,你只盯着运维平台,认为都是平台的事情。 技术标准有了,业务的碎片便没有了! 平台体系(platform) 运维的平台体系,这个我在外面讲得很多了。 不基于产品的执行路径,大到你的运维目标设定和分解下来的roadmap,比如说运维平台体系的构建;小到你的运维流程,比如说事件流程、资源池管理流程等等。
第三阶段:持续演进(持续进行) 根据新威胁更新模型 扩展响应能力范围 优化系统性能 与其他安全工具集成 实际应用案例 案例一:APT攻击的自动化阻断 攻击场景: 某高级持续威胁(APT)组织试图通过鱼叉式钓鱼邮件渗透企业网络 更人性化的交互体验 自然语言查询接口 可视化的威胁分析 智能化的运维建议 个性化的安全报告 总结 AI自动化安全响应架构不是银弹,但它确实是当前对抗高级威胁的最有效手段之一。 通过合理的架构设计和循序渐进的实施,我们可以建立一个: 快速响应的安全防护体系 智能学习的威胁检测能力 自动化执行的响应机制 持续优化的防护效果 记住,最好的防护不是让攻击者进不来,而是让他们即使进来了也无法达成目标
直达原文:大模型在蓝鲸运维体系应用——蓝鲸运维开发智能助手背景1、运维转型背景蓝鲸平台从诞生之初,就一直在不遗余力地推动运维转型,让运维团队可以通过一体化 PaaS 平台,快速编写脚本,编排流程,开发运维工具 ,从被动地提供运维支撑服务,转型为主动地提供 SRE 增值服务。 为了让运维人员更快成长为“六边形运维”(参考《在线跟腾讯工程师学习 SaaS 开发》,泛指运维界的六边形战士,特指掌握了运维开发技能的运维人群),降低运维开发 SaaS 的难度,蓝鲸不仅提供了蓝鲸开发框架 难道,运维不再需要开发转型了?甚至“零运维”在 AI 的帮助下提前实现了? 直达原文:大模型在蓝鲸运维体系应用——蓝鲸运维开发智能助手