
一转眼冬至已过,2025年马上就要过去了,希望各位读者身体健康,一切顺利!
这两天比较受关注的就是快手的安全事件了吧,官方通报攻击者为黑灰产业组织,已经报警处理,这类攻击不同于单一违规行为,而是组织化、使用自动化脚本的大规模恶意攻击行为。在短时间内产生内容洪流,超出了传统人工审核或规则审核的应对能力。
读完希里安下面文章中内容的你或许会有思考,可以假设平台安全建设工作过程中如果有AI的参与,是否能提前报出平台漏洞而避免被攻击呢?
平台在“智能化”之前,仍需大量“半自动化+自动化”的安全运维建设
上一篇文章,希里安讲解介绍了如何使用Kubebuilder开发k8s opertaor用Kubebuilder开发Operator ,写一个会自己运维的监控应用!再回忆一下其本质是什么?
K8s Operator 就是将领域专家经验编码为自动化控制器,实现:
可是并非所有场景都运行在Kubernetes上,如果脱离K8s,还有很多场景需要像Operator一样智能,那么有没有什么好办法,目前来看,就是让AI融入工作,比如希里安从事的职业中可以做:
对于这个问题,我觉得至少从两个点出发:
为什么这么说,因为我们可以换个角度想想,员工掌握使用AI对企业有什么好处:
大家对于AI介入开发应该并不陌生,例举下起码这几种是比较常用的能力:
代表工具也是一堆:
AI介入开发是很自然的,运维呢?所以我认识的运维工程师以及所在团队都在讨论一件事:
AI 到底能不能真正融入运维并颠覆以往运维方式,而不是只停留在“帮我查文档、写脚本...”
那到底可不可以呢?别着急,接下来和大家一起讨论下,并介绍下希里安作为运维开发工程师,是如何让AI融入日常运维工作的!
用好AI之前,我觉得有必要先来了解下一些比较常用的AI术语
序号 | 术语 | 英文 | 简要说明 |
|---|---|---|---|
1 | 大语言模型 | LLM (Large Language Model) | 基于海量文本训练的AI模型 |
2 | 提示词 | Prompt | 给AI的输入指令 |
3 | 上下文 | Context | AI理解的背景信息 |
4 | Token | Token | 模型处理的最小文本单位 |
5 | 代码补全 | Code Completion | AI自动完成代码 |
6 | 代码生成 | Code Generation | AI根据描述生成代码 |
7 | 嵌入向量 | Embedding | 文本的数学表示 |
8 | 微调 | Fine-tuning | 针对特定任务调整模型 |
9 | RAG | Retrieval-Augmented Generation | 检索增强生成 |
10 | Agent | AI Agent | 自主执行任务的AI |
11 | 温度 | Temperature | 控制输出随机性的参数 |
12 | 上下文窗口 | Context Window | 模型一次能处理的最大长度 |
13 | 幻觉 | Hallucination | AI生成虚假信息 |
14 | 推理 | Inference | 模型生成输出的过程 |
15 | 思维链 | Chain of Thought (CoT) | 逐步推理方法 |
16 | Few-shot | Few-shot Learning | 少样本学习 |
17 | Zero-shot | Zero-shot Learning | 零样本学习 |
18 | 流式输出 | Streaming | 逐字输出响应 |
19 | API调用 | API Call | 调用AI服务接口 |
20 | 令牌限制 | Token Limit | 单次请求的Token上限 |
当然以上内容还可以再补充,欢迎各位读者评论区留言补充!
希里安总结了一下AI融入自己工作的方式,为了便于理解,希里安区分了以下几个阶段
这个阶段AI作为建议者或顾问,人工执行
工作流应该是这样的:
问题输入->AI分析->建议输出->人工执行->人工验证
AI初期融入工作的例子就是帮助希里安编写各类运维自动化脚本,换作以前虽然知道要怎么做,但是编写脚本以及测试需要花费的时间更久,自从用了AI辅助编写脚本,很多重复性任务的自动率明显提升了,保守估计80%+,但这时候所有任务审核、决策和执行是完全在自己手中
这个阶段使用AI的优势就是,节省大量搜索时间,解决问题时效提升,风险可控,对于行业新人来说非常友好,但也有局限,就是操作还是得人工执行,解决问题速度在于人工执行效率
当然这个阶段就是使用AI比较随意,大部分场景应该是问题分析以及知识问答,遇到什么就临时使用AI解决,用过就弃用了,下次遇到了再用AI。如果是后期出现类似问题几率很小这么用没什么问题,但是如果一直这么用就会有一点问题,听希里安慢慢道来!
希里安有一天闲着了,就将与各类AI工具的对话下载后进行分析总结发现,有较长一段时间都停留在这个阶段,突然意识到,长远来看这个阶段本质上对自己个人能力成长基本没有什么帮助,为什么?接着看
这个阶段AI参与运维有几个特征:
刚开始觉得临时性任务没什么问题啊,AI不这么用还能怎么用?而发现同样问题出现数次的时候意识到问题没那么简单了,说明临时问完,知识也就过了一下脑子,连流星都算不上,好歹流星还能闪出光芒,在地上砸个坑,这问完就忘了,再看看问的问题,发现更离谱了,回顾发现这不是基础概念吗?问的问题太愚蠢了吧!不敢相信是自己能问出来的,可是当时确实是这么问的!
这个阶段总结直白点说,就是基本没经过大脑思考,看见问题就直接复制粘贴给AI,AI分析处理过后,转头就忘了!各位是否经历过这个阶段呢?
如果AI是这么融入工作的,希里安温馨提示大家需要警惕!时间久了,可能容易被AI吃掉脑子哟!
那么这个阶段如何利用好各种AI工具呢,也是有技巧可利用的,其实很多文章都有提及过,比如提示词工程,这里我再简单提一下:
设定角色 比如你是一位资深的运维工程师,熟练掌握xxx技能
提供充分上下文 比如一个系统问题,提供完整的日志片段,问题发生的时间线 ,已经尝试过的方法,系统的架构
明确问题和期望 清晰描述问题现象很重要!比如说明期望的输出格式或者内容,指定需要的详细程!比如我想知道磁盘容量,需要说明是什么系统,以什么单位显示,比如GB还是KB等等
迭代式对话 先获取初步分析再根据实际情况追问,不断深入问题本质,比如浏览器显示502,什么是502?为什么会服务不可用?有哪些情况会导致?服务挂了?什么原因导致?内存溢出进程被杀?什么原因,一步步逼进
验证AI建议 不要全信AI,比如给出答案,要结合自身经验实际去验证,不要拿到啥信啥!可以通过查询官方文档、实际操作验证等等方式
任务明确、信息完整、渐进式
AI执行低风险操作,人工审批高风险操作
在AI未真正参与前,这个半自动的过程大部分所谓"AI自动执行"实际是预定义脚本的自动触发,为了营销,把自动化包装成"AI",本质上就是规则引擎 + 自动化脚本,有经验的工程师应该知道,比如系统有告警了,会触发流水线执行某个预定义的脚本执行!
这个阶段,起码慢慢意识到了不是什么操作都需要人工执行了,这是AI运维工作的关键过渡阶段,要通过风险分级判断和区分出来那些是低风险的操作,哪些是高风险操作,实现AI和人的协同工作,AI开始承担部分执行操作。
那么和上面的辅助阶段有什么区别,辅助阶段AI只是建议,执行和验证都是人工,而半自动阶段是AI建议+AI执行,人在这过程中是决策、审核和确认,这阶段中咱从执行者变成审批者
举个栗子比如开发过程中,AI工具一通分析,发现你这个代码不对,反复分析之后觉得你写的太烂了,干脆给你删光,他自己再写一遍,甚至一个目录下的代码都被AI删光也不是不可能的。所以很多AI开发工具在执行删除或重写操作时会弹出提示框让你选择是否执行。这里其实AI就是调用了系统命令工具,而且默认就是对操作就进行了风险分级,只要获得你的允许就能执行高风险操作,并且目前很多工具就有回退的操作,避免此类操作造成的影响!
那么风险操作是不是得有个分级的标准,这里简单举个例子,实际工作中可以根据需求再制定的更详细点
风险等级 | 定义 | 处理方式 | 示例操作 |
|---|---|---|---|
低风险 | 只读或可快速恢复 | AI自动执行 | 查询、重启服务、清理临时文件 |
中风险 | 影响单一服务 | AI执行+实时通知 | 配置变更、扩容 |
高风险 | 影响多服务或数据 | 人工审批后执行 | 数据库操作、批量变更、权限修改 |
工作流大致如下:
AI->分析建议->人审核确认->AI执行->系统
这个阶段实现的关键技术有哪些需要我们了解的,一起来看看
这个是实现半自动的关键技术,能让AI调用外部工具,AI模型和MCP服务端协议通信,MCP服务端又去调用实际的工具,实现模型调用实际工具的效果,相当于AI模型从会说话变成有手有脚可以操作系统了。一般的MCP 服务会提供哪些能力呢?
来了解下MCP核心概念
概念 | 说明 | 运维场景示例 |
|---|---|---|
Tools | AI可调用的功能 | 执行命令、查询数据库、调用API |
Resources | AI可访问的数据 | 配置文件、日志文件、监控数据 |
Prompts | 预定义的提示模板 | 故障诊断模板、巡检报告模板 |
举个实际的场景例子,比如
这个阶段,需要注意风险控制,比如:
所以此时的AI,已经具备接入真实世界的数据的能力
不过这个阶段AI最终是否执行,仍然由人决定
AI自主处理常见的工作场景
这个阶段AI在可控范围内自主执行操作,什么意思呢,就是在人定义规则后,可以不依赖人工确认,就可自主执行, 什么规则呢,这个阶段不管是运维还是开发主要针对符合以下特征的操作:
先了解一些基础概念
这个阶段AI如果执行有问题,那么产生的问题将是真实存在的,所以必须
了解完这些,不得不提自动化阶段的一个重要概念,就是智能代理Agent,半自动的时候我们使用MCP工具,它的特征就是用户指定,被动执行,单次调用没有什么规划能力,所以Agnet出现了,大家还记得年初时openmanus出现的时候那种惊讶的感觉吗?就是一句话可以生成网页、制定行程、定购酒店等而不用手动操作
这里Agent就具备自主决策、多步执行、动态调整的能力 这里面的原理应该是什么样的呢,或者说核心能力是什么样的
感知->规划->决策->执行->验证->回滚或收敛
这个阶段,转化为实际运维场景其实就是通过监控、日志或者是日志接受信号,有了这信号去触发AI去根据规则或者策略来制定执行计划,然后判断怎么执行最优,执行完成后进行效果验证,如果完成了继续循环,失败了就回滚
执行过程中AI也不是直接操作系统,比如运维过程中通过API或者各种工具来实现
比如:
上面说了核心能力,再看看架构模式,这里根据我了解简单给大家介绍下

总结下:Agent = LLM + 规划 + 工具 + 记忆 + 反思

这个阶段设计运维Agent原则可以参考如下:
相信不少公司的AI运维还停留在半自动化这个阶段,因为实现自动化设计成本高,错误规则风险也较大,尽管能实现真正的7*24,但除了低风险操作,其余操作还是得人工兜底,保持保守态度,作为运维工程师,本能求稳!高风险操作不敢冒险实施。
但低风险操作完全可以实现AI运维,比如
AI预测问题,主动优化
这一阶段AI将具备长期的目标、自我学习、跨系统协作的能力
目前看这个阶段应该是AI参与运维工作的最高阶段了,不仅仅是被动响应了处理已经发生的问题,还能预测未来可能发生的问题并且提前干预,同时优化学习,能力得到进化。
但是这个阶段的实现,单单靠一个运维工程师实难实现了,目前来说智能化运维实现的公司还是比较少,所以还需各位努力和其他工种工程师协作,不断进化
这里本质实现原理我理解会由以下部分组成:
多智能体系统协作(Multi-Agent)
Agent | 职责 |
|---|---|
监控 Agent | 异常感知 |
诊断 Agent | 原因定位 |
决策 Agent | 选择方案 |
执行 Agent | 实施操作 |
评估 Agent | 验证效果 |
那么在自动化阶段已经有Agent参与,可是总感觉不可控,咋办,再来了解一种概念就是技能系统Skills,这又是什么?
Skills是预定义的能力模块,将多个工具和逻辑组合成可复用的高级能力。Skills比单个Tool更复杂,但比Agent更受控。
特点就是: 可组合多个工具、包含业务逻辑、可复用可配置
长期记忆与反馈学习
这里的用图表示如下

经验知识库RAG 存储专业的运维知识和经验,供AI检索,这里就简单提一下,也可以看之前搭建知识库的文章深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
传统方式我们提问就是基于大模型训练的数据,可能过时了或者不了解你的业务,而基于RAG,我们提问后先去检索相关业务文档加上问题,基于此大模型给予我们回答,就会了解自身的业务,并提升回答的质量,而不是编造
那么这个阶段有哪些应用场景呢?
1、故障预测与预防 这个场景中,AI主要通过多维数据(mertric、log、trace等)分析,在故障发生前预测和主动预防
举个例子,数据库连接池预警,应该有哪些流程呢
2、主动容量规划 这里就用运维工程师比较熟悉的例子,比如预测下一个月的资源需求,需要根据哪些数据来预测呢?
3、成本优化 AI参与持续分析资源使用情况,自动识别浪费并优化成本 比如根据优化策略来进行操作,列举如下
策略 | 描述 |
|---|---|
闲置资源回收 | 识别关闭未使用的资源 |
规格优化 | 根据实际负载调整实例规格 |
弹性伸缩 | 按需扩缩容 |
预留实例 | 稳定负载使用预留实例 |
存储分层 | 冷热数据分层存储 |
以上只是例举几个常见的应用场景,还有很多场景可以让AI参与
这四个阶段只是为了便于我和大家理解才分开介绍的,但实际在落地过程中,我觉得这几个阶段不是线性升级,而是长期并存,并不是说那种方式不好,灵活应用才是关键!
AI融入大家的工作,每个阶段不是越自动就越高级,而是在不同风险区间,引入不同级别的AI参与度
我想想与其说不同阶段,更好的解释是AI参与工作的不同模式,不能一味追求自动化以及更强AI,而是要实际落地到真正的系统架构中!
看完以上,是不是很多概念塞进脑袋了,是不是总感觉还有疑惑,因为还没有实际操作。就像之前介绍operator一样,知道了概念,但具体怎么开发使用呢?接下来希里安会慢慢给大家介绍如何开发mcp、agent、skill如何合理使用知识库等等,这就需要大家关注下,多多交流,给你我再加一点点动力!

能看到末尾的你已经赢了大部分人了,就剩行动了,纸上得来终觉浅,冲冲冲!!!