从 “监工” 到 “甩手掌柜”！揭示 AI 与工作融合的必然趋势，早学早躺平

希里安

发布于 2025-12-25 14:59:48

2020

文章被收录于专栏：希里安希里安

希里安近日见闻

一转眼冬至已过，2025年马上就要过去了，希望各位读者身体健康，一切顺利！

这两天比较受关注的就是快手的安全事件了吧，官方通报攻击者为黑灰产业组织，已经报警处理，这类攻击不同于单一违规行为，而是组织化、使用自动化脚本的大规模恶意攻击行为。在短时间内产生内容洪流，超出了传统人工审核或规则审核的应对能力。

读完希里安下面文章中内容的你或许会有思考，可以假设平台安全建设工作过程中如果有AI的参与，是否能提前报出平台漏洞而避免被攻击呢？

平台在“智能化”之前，仍需大量“半自动化+自动化”的安全运维建设

脱离K8s Operator的思考

上一篇文章，希里安讲解介绍了如何使用Kubebuilder开发k8s opertaor用Kubebuilder开发Operator ，写一个会自己运维的监控应用！再回忆一下其本质是什么？

K8s Operator 就是将领域专家经验编码为自动化控制器，实现：

• 声明式管理复杂应用
• 自动化运维操作（扩缩容、备份、恢复）
• 将人类知识转化为可执行代码

可是并非所有场景都运行在Kubernetes上，如果脱离K8s，还有很多场景需要像Operator一样智能，那么有没有什么好办法，目前来看，就是让AI融入工作，比如希里安从事的职业中可以做：

• 监控告警
• 资源规划
• 运维流程自动化 ...

为什么工作要融入AI？

对于这个问题，我觉得至少从两个点出发：

• 掌握AI工具，已经是IT从业者的必备技能了，不管你是开发工程师和运维工程师
• AI不会取代人，但会使用AI的人大概率会取代不会用AI的人，这不是制造焦虑，而是已成为从事本行业的既定现实

为什么这么说，因为我们可以换个角度想想，员工掌握使用AI对企业有什么好处：

• 降本增效：减少重复劳动，释放人力
• 工作质量：减少人为错误，提高系统稳定性
• 创新加速：更快地将想法转化为产品

AI开发

大家对于AI介入开发应该并不陌生，例举下起码这几种是比较常用的能力：

• 代码生成和补全
• 代码解释、重构、优化
• 自动化测试
• 文档生成
• Bug检测与修复

代表工具也是一堆：

• 对话式AI （ChatGPT等）
• 代码辅助AI（各类IDE、CLI等）
• 专业领域AI （Midjourney、Pika等等）

AI运维

AI介入开发是很自然的，运维呢？所以我认识的运维工程师以及所在团队都在讨论一件事：

AI 到底能不能真正融入运维并颠覆以往运维方式，而不是只停留在“帮我查文档、写脚本...”

那到底可不可以呢？别着急，接下来和大家一起讨论下，并介绍下希里安作为运维开发工程师，是如何让AI融入日常运维工作的！

用好AI之前，我觉得有必要先来了解下一些比较常用的AI术语

序号	术语	英文	简要说明
1	大语言模型	LLM (Large Language Model)	基于海量文本训练的AI模型
2	提示词	Prompt	给AI的输入指令
3	上下文	Context	AI理解的背景信息
4	Token	Token	模型处理的最小文本单位
5	代码补全	Code Completion	AI自动完成代码
6	代码生成	Code Generation	AI根据描述生成代码
7	嵌入向量	Embedding	文本的数学表示
8	微调	Fine-tuning	针对特定任务调整模型
9	RAG	Retrieval-Augmented Generation	检索增强生成
10	Agent	AI Agent	自主执行任务的AI
11	温度	Temperature	控制输出随机性的参数
12	上下文窗口	Context Window	模型一次能处理的最大长度
13	幻觉	Hallucination	AI生成虚假信息
14	推理	Inference	模型生成输出的过程
15	思维链	Chain of Thought (CoT)	逐步推理方法
16	Few-shot	Few-shot Learning	少样本学习
17	Zero-shot	Zero-shot Learning	零样本学习
18	流式输出	Streaming	逐字输出响应
19	API调用	API Call	调用AI服务接口
20	令牌限制	Token Limit	单次请求的Token上限

当然以上内容还可以再补充，欢迎各位读者评论区留言补充！

希里安总结了一下AI融入自己工作的方式，为了便于理解，希里安区分了以下几个阶段

辅助阶段

这个阶段AI作为建议者或顾问，人工执行

工作流应该是这样的：

问题输入->AI分析->建议输出->人工执行->人工验证

AI初期融入工作的例子就是帮助希里安编写各类运维自动化脚本，换作以前虽然知道要怎么做，但是编写脚本以及测试需要花费的时间更久，自从用了AI辅助编写脚本，很多重复性任务的自动率明显提升了，保守估计80%+，但这时候所有任务审核、决策和执行是完全在自己手中

这个阶段使用AI的优势就是，节省大量搜索时间，解决问题时效提升，风险可控，对于行业新人来说非常友好，但也有局限，就是操作还是得人工执行，解决问题速度在于人工执行效率

当然这个阶段就是使用AI比较随意，大部分场景应该是问题分析以及知识问答，遇到什么就临时使用AI解决，用过就弃用了，下次遇到了再用AI。如果是后期出现类似问题几率很小这么用没什么问题，但是如果一直这么用就会有一点问题，听希里安慢慢道来！

希里安有一天闲着了，就将与各类AI工具的对话下载后进行分析总结发现，有较长一段时间都停留在这个阶段，突然意识到，长远来看这个阶段本质上对自己个人能力成长基本没有什么帮助，为什么？接着看

这个阶段AI参与运维有几个特征：

• 不直接执行任何操作
• 临时性任务占大多数，用完即弃
• 工作任务描述模糊
• 同样的问题出现数次，但本人毫无感觉
• 问题深度较浅，无察觉
• 知识跨度小，知识范围就那一圈
• 问完也没有分类，历史记录都装不下了！
• ...暂时想到这些，各位还可以补充

刚开始觉得临时性任务没什么问题啊，AI不这么用还能怎么用？而发现同样问题出现数次的时候意识到问题没那么简单了，说明临时问完，知识也就过了一下脑子，连流星都算不上，好歹流星还能闪出光芒，在地上砸个坑，这问完就忘了，再看看问的问题，发现更离谱了，回顾发现这不是基础概念吗？问的问题太愚蠢了吧！不敢相信是自己能问出来的，可是当时确实是这么问的！

这个阶段总结直白点说，就是基本没经过大脑思考，看见问题就直接复制粘贴给AI，AI分析处理过后，转头就忘了！各位是否经历过这个阶段呢？

如果AI是这么融入工作的，希里安温馨提示大家需要警惕！时间久了，可能容易被AI吃掉脑子哟！

那么这个阶段如何利用好各种AI工具呢，也是有技巧可利用的，其实很多文章都有提及过，比如提示词工程，这里我再简单提一下：

设定角色 比如你是一位资深的运维工程师，熟练掌握xxx技能

提供充分上下文 比如一个系统问题，提供完整的日志片段，问题发生的时间线，已经尝试过的方法，系统的架构

明确问题和期望 清晰描述问题现象很重要！比如说明期望的输出格式或者内容，指定需要的详细程！比如我想知道磁盘容量，需要说明是什么系统，以什么单位显示，比如GB还是KB等等

迭代式对话 先获取初步分析再根据实际情况追问，不断深入问题本质，比如浏览器显示502，什么是502？为什么会服务不可用？有哪些情况会导致？服务挂了？什么原因导致？内存溢出进程被杀？什么原因，一步步逼进

验证AI建议 不要全信AI，比如给出答案，要结合自身经验实际去验证，不要拿到啥信啥！可以通过查询官方文档、实际操作验证等等方式

任务明确、信息完整、渐进式

半自动阶段

AI执行低风险操作，人工审批高风险操作

在AI未真正参与前，这个半自动的过程大部分所谓"AI自动执行"实际是预定义脚本的自动触发，为了营销，把自动化包装成"AI"，本质上就是规则引擎 + 自动化脚本，有经验的工程师应该知道，比如系统有告警了，会触发流水线执行某个预定义的脚本执行！

这个阶段，起码慢慢意识到了不是什么操作都需要人工执行了，这是AI运维工作的关键过渡阶段，要通过风险分级判断和区分出来那些是低风险的操作，哪些是高风险操作，实现AI和人的协同工作，AI开始承担部分执行操作。

那么和上面的辅助阶段有什么区别，辅助阶段AI只是建议，执行和验证都是人工，而半自动阶段是AI建议+AI执行，人在这过程中是决策、审核和确认，这阶段中咱从执行者变成审批者

举个栗子比如开发过程中，AI工具一通分析，发现你这个代码不对，反复分析之后觉得你写的太烂了，干脆给你删光，他自己再写一遍，甚至一个目录下的代码都被AI删光也不是不可能的。所以很多AI开发工具在执行删除或重写操作时会弹出提示框让你选择是否执行。这里其实AI就是调用了系统命令工具，而且默认就是对操作就进行了风险分级，只要获得你的允许就能执行高风险操作，并且目前很多工具就有回退的操作，避免此类操作造成的影响！

那么风险操作是不是得有个分级的标准，这里简单举个例子，实际工作中可以根据需求再制定的更详细点

风险等级	定义	处理方式	示例操作
低风险	只读或可快速恢复	AI自动执行	查询、重启服务、清理临时文件
中风险	影响单一服务	AI执行+实时通知	配置变更、扩容
高风险	影响多服务或数据	人工审批后执行	数据库操作、批量变更、权限修改

工作流大致如下:

AI->分析建议->人审核确认->AI执行->系统

这个阶段实现的关键技术有哪些需要我们了解的，一起来看看

MCP协议

这个是实现半自动的关键技术，能让AI调用外部工具，AI模型和MCP服务端协议通信，MCP服务端又去调用实际的工具，实现模型调用实际工具的效果，相当于AI模型从会说话变成有手有脚可以操作系统了。一般的MCP 服务会提供哪些能力呢？

• 文件系统操作 (读/写/搜索)
• 命令执行 (Shell/PowerShell)
• API调用 (HTTP请求)
• Git操作 (提交/推送)
• 更多自定义工具...

来了解下MCP核心概念

概念	说明	运维场景示例
Tools	AI可调用的功能	执行命令、查询数据库、调用API
Resources	AI可访问的数据	配置文件、日志文件、监控数据
Prompts	预定义的提示模板	故障诊断模板、巡检报告模板

举个实际的场景例子，比如

• 用户需求：检查服务器磁盘使用情况，如果超过80%就清理临时文件
• AI分析并生成执行计划：
1. 1. 需要执行 df -h 检查磁盘
2. 2. 如果 /var 超过80%，执行清理
3. 3. 清理目标: /var/tmp/, /var/log/.gz
• 人工确认执行：命令: rm -rf /var/tmp/* 允许执行或者拒绝
• AI执行删除操作

这个阶段，需要注意风险控制，比如：

• 只允许预定义的安全命令，危险命令直接禁止
• 写操作必须人工确认
• 记录所有执行的命令
• 关键操作前自动备份

所以此时的AI，已经具备接入真实世界的数据的能力

• 执行系统命令
• 获取监控指标
• 读取日志系统数据
• 事件系统
• Runbook / SOP

不过这个阶段AI最终是否执行，仍然由人决定

自动化阶段

AI自主处理常见的工作场景

这个阶段AI在可控范围内自主执行操作，什么意思呢，就是在人定义规则后，可以不依赖人工确认，就可自主执行, 什么规则呢，这个阶段不管是运维还是开发主要针对符合以下特征的操作：

• 高频
• 低风险
• 可验证
• 可回滚

先了解一些基础概念

• 策略以及权限隔离比如AI只能操作指定的命名空间,指定的资源类型、指定的动作
• 幂等性和可回滚幂等性的本质就是不管操作多少回，结果是一样的，所有的AI动作必须可重复，必须可撤销，否则不能AI自动化

这个阶段AI如果执行有问题，那么产生的问题将是真实存在的，所以必须

• 限制范围
• 限制频率
• 限制权限

了解完这些，不得不提自动化阶段的一个重要概念，就是智能代理Agent，半自动的时候我们使用MCP工具，它的特征就是用户指定，被动执行，单次调用没有什么规划能力，所以Agnet出现了，大家还记得年初时openmanus出现的时候那种惊讶的感觉吗？就是一句话可以生成网页、制定行程、定购酒店等而不用手动操作

这里Agent就具备自主决策、多步执行、动态调整的能力这里面的原理应该是什么样的呢，或者说核心能力是什么样的

感知->规划->决策->执行->验证->回滚或收敛

这个阶段，转化为实际运维场景其实就是通过监控、日志或者是日志接受信号，有了这信号去触发AI去根据规则或者策略来制定执行计划，然后判断怎么执行最优，执行完成后进行效果验证，如果完成了继续循环，失败了就回滚

执行过程中AI也不是直接操作系统，比如运维过程中通过API或者各种工具来实现

比如：

• Kubernetes API
• Terraform
• Ansible
• Argo CD
• 自研 Controller

上面说了核心能力，再看看架构模式，这里根据我了解简单给大家介绍下

• ReAct模式（推理+行动） ReAct是最常用的Agent模式，交替进行推理和行动，大致流程就是不断思考行动观察再思考行动
• Plan-and-Execute模式先制定完整计划，再逐步执行，这个模式在很多ide都是有的，大家应该都用过了，比如kiro、codebuddy
• 多Agent协作模式字面意思就是多个专业Agent协作完成复杂任务

总结下：Agent = LLM + 规划 + 工具 + 记忆 + 反思

这个阶段设计运维Agent原则可以参考如下：

1. 最小权限原则:只能访问必要工具和资源
2. 渐进式授权: 从只读开始，逐步增加执行权限
3. 操作可回滚: 所有修改操作都要有回滚方案
4. 审计追踪: 记录所有决策和操作
5. 人工兜底: 高风险操作需要人工确认

相信不少公司的AI运维还停留在半自动化这个阶段，因为实现自动化设计成本高，错误规则风险也较大，尽管能实现真正的7*24，但除了低风险操作，其余操作还是得人工兜底，保持保守态度，作为运维工程师，本能求稳！高风险操作不敢冒险实施。

但低风险操作完全可以实现AI运维，比如

• 监控异常并给出预测
• 告警时给出故障分析
• 节点异常时执行自愈操作
• 服务异常重启
• 网络抖动后服务恢复监控
• 低风险变更自动执行
• 等等。。。

智能化阶段

AI预测问题，主动优化

这一阶段AI将具备长期的目标、自我学习、跨系统协作的能力

• 多智能体协同
• 自我优化
• 主动预防事故

目前看这个阶段应该是AI参与运维工作的最高阶段了，不仅仅是被动响应了处理已经发生的问题，还能预测未来可能发生的问题并且提前干预，同时优化学习，能力得到进化。

但是这个阶段的实现，单单靠一个运维工程师实难实现了，目前来说智能化运维实现的公司还是比较少，所以还需各位努力和其他工种工程师协作，不断进化

这里本质实现原理我理解会由以下部分组成：

多智能体系统协作（Multi-Agent）

Agent	职责
监控 Agent	异常感知
诊断 Agent	原因定位
决策 Agent	选择方案
执行 Agent	实施操作
评估 Agent	验证效果

那么在自动化阶段已经有Agent参与,可是总感觉不可控，咋办，再来了解一种概念就是技能系统Skills，这又是什么？

Skills是预定义的能力模块，将多个工具和逻辑组合成可复用的高级能力。Skills比单个Tool更复杂，但比Agent更受控。

特点就是：可组合多个工具、包含业务逻辑、可复用可配置

长期记忆与反馈学习

• 事故 → 复盘 → 知识更新
• 决策效果 → 权重调整
• 成功方案 → 优先级提高

这里的用图表示如下

经验知识库RAG 存储专业的运维知识和经验，供AI检索，这里就简单提一下，也可以看之前搭建知识库的文章深度解锁AI私有知识库：用 DeepSeek 和 RAGFlow 打造企业级智能平台

传统方式我们提问就是基于大模型训练的数据，可能过时了或者不了解你的业务，而基于RAG，我们提问后先去检索相关业务文档加上问题，基于此大模型给予我们回答，就会了解自身的业务，并提升回答的质量，而不是编造

那么这个阶段有哪些应用场景呢？

1、故障预测与预防 这个场景中，AI主要通过多维数据（mertric、log、trace等）分析，在故障发生前预测和主动预防

举个例子，数据库连接池预警，应该有哪些流程呢

• 通过监控获取使用率的趋势、慢查询数量、连接平均持有时间、并发请求数趋势、历史数据，这都是预测故障依据
• 根据以上预测进行预防措施，比如扩大连接池、优化慢查询、扩容实例等

2、主动容量规划 这里就用运维工程师比较熟悉的例子，比如预测下一个月的资源需求，需要根据哪些数据来预测呢？

• 一个就是当前的资源量、用户的增长量、对应的业务资源需求量、以及历史的资源需求量，AI根据这些数据进行合理预测下月的量
• AI进行资源申请操作、预留资源配额、优化现有资源利用率等等

3、成本优化 AI参与持续分析资源使用情况，自动识别浪费并优化成本比如根据优化策略来进行操作，列举如下

策略	描述
闲置资源回收	识别关闭未使用的资源
规格优化	根据实际负载调整实例规格
弹性伸缩	按需扩缩容
预留实例	稳定负载使用预留实例
存储分层	冷热数据分层存储