本篇你将学到:
前三篇讲了什么?用 AI 做需求澄清、用结构化三层法写方案、用 AI 画架构图。这三件事都围绕一个核心——架构师自己的工作方式怎么变。
但从这篇开始,视角要转了。
客户不会问你"你方案怎么写的"。客户问你的是:"我们团队适不适合上 AI?用哪个模型?花多少钱?数据安全怎么办?"
架构师在 AI 时代的第二个核心能力,不是自己怎么用 AI,是帮客户判断怎么采纳 AI。这篇文章就用 MumuMall 这个真实场景,把架构师要回答的问题一个一个拆开。
MumuMall 的智能客服需要一个大模型。选哪个?
架构师不能只说"ChatGPT 最好",也不能只说"国产化必须用国产模型"。客户要的是有依据的对比。
这是第一个决策分叉。两种路线,差异巨大:
维度 | 云端 API(百炼/通义千问) | 私有化部署(Ollama + Qwen/DeepSeek) |
|---|---|---|
启动成本 | 零。开通即用 | 高。需要 GPU 服务器 |
单次成本 | 按 Token 付费。Qwen-Max ¥0.04/1K tokens | 固定。电费 + 运维人力 |
适用规模 | 日均调用 < 10 万次 | 日均调用 > 10 万次,或强数据安全需求 |
模型可控性 | 不可控。模型版本由厂商升级 | 可控。版本锁定,可微调 |
数据安全 | 数据经公网传输,需签数据处理协议 | 数据不出机房,满足合规要求 |
运维复杂度 | 零。厂商负责 | 中高。需要 GPU 运维能力 |
MumuMall 的场景怎么选?日均 5000 次咨询,每次咨询约 3 轮对话,每轮约 2000 Token(输入 + 输出)。一天 3000 万 Token,一个月约 9 亿 Token。
算一笔账:
结论:MumuMall 日均 5000 次咨询的场景,云端 API 明显更划算。但如果日调用量超过 10 万次,或者 MumuMall 要求用户数据不能离开内网,私有化就变成必选项。
这是架构师的判断——不是"哪个模型好",是"你的场景应该选哪个"。
选模型之前,先搞清楚哪些模型适合客服场景。拿 MumuMall 实际 FAQ 做一组对比测试:
模型 | 中文客服能力 | 推理速度 | 成本(每百万 Token) | 私有化部署难度 |
|---|---|---|---|---|
Qwen-Max(通义千问) | ⭐⭐⭐⭐⭐ 极强 | 快 | ¥40 | 需商用授权 |
Qwen2.5-72B(开源) | ⭐⭐⭐⭐ 强 | 中(需 A100) | 免费 + 算力 | 72B 参数,需 A100×2 |
Qwen2.5-7B(开源) | ⭐⭐⭐ 中等 | 快(T4 即可) | 免费 + 算力 | T4 单卡,极低门槛 |
DeepSeek-V3 | ⭐⭐⭐⭐⭐ 极强 | 快(MoE 架构) | ¥2(极低) | 需商用授权 |
DeepSeek-R1 | ⭐⭐⭐⭐ 强(推理强) | 中 | ¥4 | 开源,H800 推荐 |
Llama 3.1-70B | ⭐⭐⭐ 中文弱于 Qwen | 中 | ¥6(云端)/免费 | H100 推荐 |
测试方式和结果:
取 MumuMall 20 条真实 FAQ(退换货政策、物流查询、促销规则、生鲜售后),每条用同一 Prompt 测试五个模型的回答准确性、完整性、是否产生幻觉。
模型 | 准确率 | 幻觉率 | 单次延迟 | 成本/千次问答 |
|---|---|---|---|---|
Qwen-Max | 92% | 3% | 1.8s | ¥120 |
Qwen2.5-72B | 88% | 5% | 3.2s(自建) | 算力成本 |
DeepSeek-V3 | 90% | 4% | 1.5s | ¥6 |
MumuMall 的选择逻辑:
架构师的价值不是"推荐哪个模型",是告诉客户 "你的场景下,这个模型的优势和代价是什么"。
上面给出了清晰的对比和结论,但真实场景往往更复杂。以下几个问题没有标准答案,值得你在做选型决策前想一想:
1. 该用单一模型还是多模型组合?
智能客服的四个环节——意图判断、知识检索排序、回答生成、转人工判断——对模型的要求完全不同。意图判断需要快(延迟 < 500ms),对推理深度要求低;回答生成需要准,对延迟容忍度高一些。一个思路是:意图判断用便宜的轻量模型(如 Qwen2.5-7B),回答生成用强模型(如 Qwen-Max 或 DeepSeek-V3)。
问题是:多模型组合增加了系统复杂度。模型之间的切换逻辑怎么写?意图判断错了导致路由到错误的下游模型,谁来兜底?什么时候该拆多模型、什么时候老老实实用一个模型?怎么判断拆的收益是否大于复杂度的成本?
2. 模型挂了或超时,是降级还是直接转人工?
云端 API 不是 100% 可用。大促峰值流量翻 5 倍时,API 可能限流甚至拒绝服务。架构师需要提前设计降级策略:备选模型(主用 Qwen-Max,备用 DeepSeek-V3)?还是直接转人工?降级时用户能感知到吗——前一个问题 AI 还回答得好好的,下一个问题突然变笨了?
这个决策的关键变量是什么?是业务对延迟的容忍度?还是对回答质量的一致性要求?
3. 长对话的上下文窗口怎么管?
MumuMall 的客服对话不会永远是 3 轮。用户反复追问退换货细节、来回确认地址、退款金额谈不拢——对话可能拖到 10 轮以上。每轮对话都在往上下文窗口里塞东西。塞太少吃不准用户意图,塞太多 Token 费用暴涨。什么时候截断旧对话?用什么策略截断——按轮次截断、按语义摘要、还是两者结合?
4. 模型版本升级,你跟还是不跟?
云端模型的版本不受你控制。厂商升级模型后,你的 Prompt 可能突然表现不同——同一个 Prompt,新版本模型的理解方式可能变了。锁版本会牺牲能力提升和厂商的安全修复;不锁版本,每次升级都可能悄悄改变你的系统行为。
这个问题没有技术解法,它是一个流程问题:你怎么发现模型版本变了?怎么测出新版本对现有 Prompt 的影响?谁来负责这件事?
MumuMall 的团队也要用 AI Coding。架构师的职责不是钦定某个工具,是建立一套选型评估方法,让团队不同角色选到适合自己的工具。
第一个问题:谁在用?
不同角色对 AI Coding 的需求完全不同。开发者要的是补全快、调试准、语言生态好。架构师要的是方案生成能力强、能理解复杂的架构描述、评审意见有深度。产品经理要的是能把 PRD 快速变成可交互原型。
一句话:不是选一个"最好的工具",是让每个人用上"最适合自己角色"的工具。架构师和开发者不需要统一工具。统一工具反而限制效率。
第二个问题:数据流向哪里?
这是最容易踩的坑,也是客户最关心的合规问题。选工具之前,必须搞清楚:你的代码和 Prompt 经过谁的服务器?有没有可能被用于模型训练?
判断框架很简单:如果一个项目涉及核心业务逻辑、客户数据、或合同约束的数据不出境条款,优先选数据在国内处理的工具。如果是开源项目或非敏感的内部工具,数据合规约束就宽松得多。
第三个问题:团队现状能承受多大的切换成本?
一个新工具再好,如果团队要花两周上手、打断正在进行的迭代,就不值得立刻切换。评估切换成本看三样:现有工作流能不能兼容?团队有多少人已经用熟了某个工具?迁移后第一个迭代会不会明显变慢?
市面上的工具对比榜单每天都在变。今天 A 比 B 强,下周版本更新可能就反过来了。榜单是别人的结论,不是你的判断。
架构师应该做的事:拿自己团队的真实任务,去测两到三个备选工具,记录实测结果,再做决策。
就三件事:
实测花不了半天。但测完之后,你做的是自己的判断,不是转发别人的结论。架构师的信誉来自判断力,判断力来自亲手验证。
工具选型只是第一步。真正麻烦的问题出现在工具落地之后:
1. AI 生成的代码,验收标准跟人写的能一样吗?
人写的代码,架构师 Code Review 有成熟的 Checklist:命名规范、错误处理、性能隐患、安全漏洞。AI 生成的代码,还得多看一样——AI 有没有"自作主张"?比如你让它写一个工单查询接口,它自作聪明加了一个"自动关闭工单"的逻辑,代码质量很高,但做的事不是你让它做的。
这不是 bug,是偏差。审人写的代码是"查漏补缺",审 AI 写的代码是"查伪造"。Code Review 的工作量到底是升了还是降了?有没有办法让 AI 生成代码时主动标记"这里我做了超出指令范围的设计决策"?
2. 团队规范怎么变成 AI 的"肌肉记忆"?
AGENTS.md 或 .cursorrules 这类项目级指令文件,是架构师把团队规范嵌入 AI 工作流的核心手段。但规范写到多细才算够?太粗,AI 理解偏差大;太细,指令文件变成没人维护的过时文档——跟传统 Wiki 一样的宿命。
一个思考方向:规范不是写一次就完事的,它应该随 AI 的实际产出持续迭代。架构师 Review AI 生成的代码时,发现的每类重复性偏差,都应该回写进规则文件。这不是技术问题,是"谁来维护、多长时间维护一次"的流程问题。你团队里有这个人吗?
客户最关心的是钱。架构师不能回答"看情况",要给有依据的预估。
假设:日均 5000 次咨询,每次 3 轮对话。每轮包含意图判断(200 Token)+ 知识检索(500 Token)+ 回答生成(800 Token)+ 可能的改写(200 Token)。
单次咨询:
环节 | Token 消耗 | 说明 |
|---|---|---|
意图判断 | 200 | System Prompt + 用户输入 + 分类输出 |
知识检索 | 500 | 检索到的文档片段(top 5) |
回答生成 | 800 | Prompt + 文档上下文 + 生成回答 |
改写(触发率 30%) | 200 × 0.3 = 60 | 首次检索不满意,改写 query 重搜 |
单次对话 | ~1,560 Token | |
单次咨询(3 轮对话) | ~4,680 Token |
月度成本 = 5000 × 30 × 4680 = 7.02 亿 Token/月
模型 | 输入价格 / 百万 Token | 输出价格 / 百万 Token | 综合月费(估) |
|---|---|---|---|
Qwen-Max | ¥40 | ¥120 | ¥3,500 |
DeepSeek-V3 | ¥1 | ¥2 | ¥140(极低) |
Qwen2.5-72B(自建 A100×2) | — | — | 硬件折旧 ¥3,000 + 电费 ¥800 = ¥3,800/月 |
Qwen2.5-7B(自建 T4) | — | — | 硬件折旧 ¥800 + 电费 ¥200 = ¥1,000/月 |
这张表给客户看,决策就清楚了。
注意:DeepSeek-V3 虽然便宜,但调用走的是 DeepSeek 官方 API,数据经其服务器。如果 MumuMall 的用户数据不能给第三方,这个选项直接排除——不是技术问题,是合规问题。
上面的预估是一个理想化的线性模型。真实世界的成本结构比这复杂得多:
1. 缓存能省多少钱,值得多少复杂度?
System Prompt(角色设定、输出规范、安全边界)每次对话都原样发给模型,这部分 Token 完全是重复消费。LLM 厂商普遍支持 Prompt 缓存——缓存的 Token 按原价 10%-30% 计费。但缓存有规则:必须放在 Prompt 的最前面、内容必须逐字符完全一致、命中有概率性。
架构师的决策不是"要不要开缓存",是:System Prompt 写多长才划算?太长,命中的那部分便宜了,但挤占了对话上下文;太短,AI 行为约束不够。而且缓存策略会影响 Prompt 的迭代方式——你不敢随便改 System Prompt,每次改动都会清空缓存。稳定性 vs 灵活性,怎么取舍?
2. "隐性成本"可能超过推理成本
Token 费用是最显眼的。显眼之外,还有一笔账容易被忽略:
一个经验数字:隐性成本往往占到推理成本的 30%-50%。给客户报的 ¥5,000/月,上生产可能变成 ¥7,500。架构师如果只报 Token 费用、不提隐性成本,生产阶段客户看到账单会回来找你。
3. 多 Agent 系统里,成本怎么拆?
智能客服是四个 Agent 协作——Orchestrator 做意图判断,Knowledge Agent 做知识检索,Ticket Agent 管工单,Escalation Agent 管转人工。一次用户对话可能走 2 个 Agent,也可能走 4 个。账单上只有一笔:调了 LLM 多少次、花了多少 Token。
但客户想知道的是:我的钱花在哪了?是花在回答生成上(产生价值),还是花在意图判断上(产生开销)?还是花在改写——Agent 第一次没搜到,换个关键词重新搜——这些 Token 完全是浪费?
成本不拆清楚,你就没办法回答"这个 AI 系统值不值得继续花钱"。架构师不只是算总账的人,是设计成本归属模型的人。
MumuMall 用 Dify 做原型验证(下一篇会展开)。架构师要先设计 Dify 的部署方案。
三种部署方式:
方式 | 适合阶段 | 资源需求 | 月成本 | 特点 |
|---|---|---|---|---|
Dify Cloud | 原型/POC | 零 | 免费(限制 10 万次/月) | 开箱即用,数据存云端 |
Docker 自建(单机) | MVP/小团队 | 2C4G 云服务器 | ECS ¥200/月 | 数据自控,10 分钟部署 |
Docker 自建(高可用) | 生产 | 多台 ECS + RDS + Redis | ¥1,500-3,000/月 | 数据自控 + 高可用 |
MumuMall 的推荐路径:
为什么不用 Dify Cloud 直上生产?因为 MumuMall 的用户对话数据包含手机号和订单信息。Dify Cloud 的数据存储在 Dify 服务器上——数据合规上是风险点。到生产阶段,必须切到自建。
1. 从原型到生产,同一个平台一路走到底吗?
上面的推荐路径是 Dify Cloud → Docker 自建单机 → Docker 自建高可用。看起来是同一个平台的三个版本。但真实情况很可能是:原型阶段用 Dify Cloud 验证的是对话流设计——Agent 编排逻辑对不对、知识库检索效果好不好。验证通过后,生产阶段发现 Dify 自建高可用虽然架起来了,但它的版本升级策略、审批流程、权限体系跟公司现有的 CI/CD 体系接不上。
这个时候要不要换引擎?把编排逻辑从 Dify 迁移到 LangChain 或 Agent SDK,不是简单的"导出配置、重新导入"。编排流的DAG 结构、Prompt 模板的变量语法、Tool 注册方式——每个平台都不一样。架构师在原型阶段就要为这件事留后手:原型验证的产出物,能不能不绑定平台?
2. Dify 的自动编排(AI 生成工作流),你信多少?
Dify 支持"一句话生成工作流"——你描述业务逻辑,它自动画出 Agent 节点和连线。省时间,但生成的编排逻辑是一个黑箱。开发拿到这个编排流,没人能说清"为什么第三步之后是第四步,而不是第五步"。
编排和代码一样,可读性比"能跑"更重要。你愿意为可维护性牺牲多少生成效率?架构师怎么在"AI 快速生成"和"人类可维护"之间画一条线?
和客户交流时,你会发现他们不是来学技术的。他们来是因为焦虑。架构师的价值不是消除焦虑,是把焦虑变成可执行的步骤。
焦虑一:"AI 会不会让我的团队失业?"
回答:不会。但会让不用 AI 的团队失去竞争力。
给客户一个简单的判断框架:
焦虑二:"我们数据安全怎么办?"
回答:分层处理。
数据类型 | 处理方式 |
|---|---|
公开信息(产品 FAQ、政策) | 直接入 RAG 知识库 |
脱敏后可用(手机号打码、地址模糊化) | 经脱敏层 → 传给 LLM |
绝不能给 AI(支付密码、身份证号) | 本地规则引擎处理,不传 LLM |
焦虑三:"从哪开始?花多少钱?"
回答:三步走,每步有明确成本。
阶段 | 时间 | 做什么 | MumuMall 场景的成本 |
|---|---|---|---|
POC 验证 | 1-2 周 | Dify 搭原型,用云端免费额度 | ¥0(Dify Cloud + 百炼免费额度) |
MVP 上线 | 1-2 月 | 自建 Dify + 选定模型 + 灰度 10% 用户 | ¥500/月(ECS ¥200 + Token ¥300) |
生产全量 | 3-6 月 | 高可用部署 + 弹性伸缩 + 监控 | ¥5,000/月(ECS ¥2,000 + Token ¥2,500 + RDS/Redis ¥500) |
客户需要的不只是技术方案,是从"现在什么都不懂"到"花多少钱、什么时候上线"的路线图。这是架构师的新核心能力。
架构师在 AI 时代的第二个能力跃迁:从**"自己怎么用 AI"升级到"帮客户判断怎么采纳 AI"**。
五个问题,架构师必须能回答——但每个问题往下挖一层:
每个问题都有一层"标准答案",一层"往下追问"。标准答案够你通过评审会,往下追问的答案够你成为客户信任的那个人。
下一篇:选型做完了,方案设计完了。下一步不是动手写代码——是在 Dify 上 10 分钟搭一个原型,验证模型选型对不对、Token 预估准不准、编排逻辑通不通。验证完了再决定要不要用 LangChain 做生产级定制。