文章/答案/技术大牛

发布

为何企业Agent难以替代人工？揭秘大模型应用的三大难题

文章来源：企鹅号 - 一只小大象

先简单介绍一下背景。

我目前在多家企业担任智能体落地顾问，手头有多家企业智能体成功落地的实战经验，而且这些系统都已经真正投入生产环境使用。

从 GPT 刚问世那会儿起，我们都憧憬着：在大模型能力加持下，企业能够实现真正的智能化，让 AI 自动解决业务流程中的复杂问题。

但三年多过去了，我们很少听说哪家企业的自动化系统，真正替代了人工的正常工作流程。大部分所谓的“自动化”，依然停留在数字报表和传统 OA 办公层面，并没有真正让大模型的决策能力渗透到业务核心链路。

Part.01

企业不敢用大模型的根本原因：随机性

答案很简单：大模型生成的内容是随机的，每次结果都不一样。

如果你的要求很简单，结果的准确性还能保证。但问题也来了：如果要求简单，为什么还要用大模型？直接写几个 if-else 判断不就行了？

而如果场景复杂，涉及模糊概念、长流程、多条款、多步骤，这时候让大模型处理似乎也很自然。因为它懂那些隐晦的经验，能够“意会”。

但这往往正是问题开始的地方。

大模型有时候像艺术家一样发散思维，想得太深太远，给出你根本不想要的结果；有时候又畏缩不前，你明明让它做，它偏不敢做。你只能通过提示词去命令它，但它不听话的时候，你并没有太多办法。更痛苦的是，模型版本一迭代，旧问题刚解决，新场景里又冒出更多问题。

现在 Vibe Coding 领域之所以能跑起来，是因为背后已经经历了极其工程化的优化：海量代码微调、Prompt 工程、后训练优化。你会发现 GPT 的表达里经常带有强烈的代码式结构感，这本质上就是因为它被灌入了大量代码训练，并且针对代码场景做了深度微调。这也是目前少数已经被证明有巨大商业价值的落地场景。

但如果要把大模型落地到企业自己的特定业务场景里，需要烧掉多少 Token？多少资本投入？又要为单个场景做多少定制化？大模型并不是天然通用的。要在某个具体场景达到好效果，就必须高度定制。

现在技术发展的趋势，包括代码生成范式的演进、模型能力的某种“畸变”，其实都在把大模型推向一种更强的“定制化文本生成”。而企业本身又不具备训练专用大模型的数据基础。所以，指望通过“生成”这条路，让大模型自动解决企业问题，这条路本身就很难走通。

Part.02

重新认识大模型：它是胶水，不是大脑

从 GPT 诞生之初，我也曾陷入上述悖论。但很快我意识到：我们不能完全跟着资本叙事走，要有自己独立的认知。

大模型的本质是什么？

它是一个生成模型（Generative Model）。它通过“预测下一个字”这个简单任务，学会了文本的概率分布。它的内核，本质上是一个不断吐字的生成器。它没有真正的逻辑性，没有真正的判断力，更像是一种把文字粘连起来的“胶水”，只是因为输出足够像人话，所以看起来像在思考。

它表现出“像人一样思考”的特征，仅仅是因为训练语料里存在这样的模式，它学到了这些模式的高概率组合。所以，我们不能把企业里那些必须精确执行的严谨判断，直接交给大模型去做等价表达。这个前提本身就是有问题的。

因此，企业要落地大模型，就必须借助其他方式去保证流程的精准性。大模型适合发挥“灵活性”和“胶水”的作用：把流程串起来，或者在需要发散思维的创新环节使用它。

但在整个链路的准确表达上，必须放弃让大模型自由发挥。

Part.03

企业智能体落地的三大难题

企业落地智能体，至少要面对三个核心难题。

一、错误的范式：目标导向的命令式思路

很多人以为，既然大模型已经很智能，那我们就可以采用一种目标导向的方式：给定一个目标，让大模型自己推理出执行步骤。

这很像逻辑编程里的推理引擎：给定公理和目标，系统自动组合出证明过程。

这种使用方式，确实很符合今天大家对大模型的直觉。但它不适合企业落地。

我们总是容易高估模型的智能，想当“甩手掌柜”，给出一个目标，就期待它自己推出一套严谨、稳定、可靠的执行过程。问题在于，大模型并不会自动给你严谨的推理结果。

正确的方向：过程式编程，先给骨架，再让它生成

为什么不换个思路？

与其让大模型自己创造流程，不如直接采用过程式编程（Procedural Programming）的思路。就像 Python、C++ 那样，把算法流程一行一行写出来。

如果用过程式的方式来使用大模型，它会同时具备两种能力：

第一，它自然有了流程骨架。流程是确定性的，执行边界是清晰的。

第二，它依然保留生成能力。自然语言描述的灵活性、模糊表达的适配能力，仍然可以发挥出来。

这其实是一个非常好的折中：既用了大模型的生成能力，又控制住了整个过程。

把大模型当作一种“过程语言”来使用，而不是把它当作一个会自动设计流程的大脑，这才是打开企业自动化场景的钥匙。

二、知识沉淀：这不是纯技术问题，更是人的问题

企业里当然有专家，而且很多专家已经积累了多年的工作经验。

但问题在于，企业的工作模式长期是“人治”的。很多隐性的管理方式、协作方式、人际关系，并不是一套文档就能说清楚，更不是上了大模型之后就能直接替代的。

落地智能体，70% 是人的事，是组织的事，是管理的事。

很多时候，只有一把手强势推动，项目才有可能创造出全局价值。可即使有这个推动力，仍然会遇到一个非常现实的问题：怎样把专家手里的经验，明明白白写出来，并且写到大模型能理解、能执行的程度？

这件事极其困难。

张三和李四可能都在做同一件事，但两个人的表达方式完全不同，甚至互相都未必看得懂对方的经验。这本质上不是技术发展的问题，而是认知统一、交流沟通、语言表达的问题。

技术人员能提供的，其实只是表达范式、交流模板和沉淀经验的标准模式。真正要把经验落下来，仍然需要在对人的管理和沟通中，把经验一点点提炼出来。这往往是最难的部分，也不是单靠技术就能解决的。

为了让经验更准确、判断更标准、执行更稳定，我们需要做几件事：

限定专家讨论范围。也就是限定状态空间（State Space），在这个限定域内完成决策与逻辑落地。

采用科学的沟通方法。比如问卷、会议纪要、动作分析等方式，把隐性经验慢慢显性化。

这里就必须提到 Palantir 的本体（Ontology）。

目前 Palantir 的本体模式，基本已经主导了企业智能体落地的一条重要方向。本体落地，是专家经验落地的第一步，也是经验能够被编写、被表达、被系统接住的前提。

三、准确率：99.7% 是生死线

对技术人员来说，能够创造最大价值的环节，其实是测试。

我们必须要有一套测试方案，能够准确评价智能体在企业中的执行准确率。上线标准至少是 95%，最好能到 99.7%。

为什么这个数字这么重要？

因为企业场景和个人使用场景完全不同。

在个人使用里，模型答错了，你可以重来一次；答偏了，你可以补一句提示词；效果不好，你还可以多试几轮。

但企业不是这样。

企业里的错误，会直接降低系统可信度；企业流程本身又是确定性的，一处错误就可能引发连锁反应，尤其是在多人协作场景里；它不像个人使用时那样，允许你无限重试。

现在市面上很多通用智能体，准确率往往只有 60% 到 70%。它们经常说出让人匪夷所思的话，一旦进入多步执行场景，问题会更加明显。这种准确率的智能体，根本没有办法在企业里真正落地。

当我告诉企业，我能把准确率做到 99.7% 时，所有老板都会非常有兴趣。因为他们真正关心的，不是模型有多聪明，而是它能不能稳定替代工作流中的一部分真实工作。

所以，对技术人员来说，保证准确率，是上线智能体的底线，也是最核心的能力。

我们需要建立的是一套闭环的回归测试机制。即使经验会随着场景和时间不断变化，我们也能通过测试环节把执行动态闭环起来，持续优化流程。

测试的价值有两层：

一层是对流程正确性的保障；

另一层是让智能体持续进化的基础设施。

Part.04

总结：企业智能体落地的三个支柱

要在企业里真正把智能体落地，必须抓住三个方向。这也是我后续会持续拆解的方法论核心。

流程化表达：放弃目标导向的命令式幻想，采用过程式方法，让大模型在明确的流程骨架上发挥，而不是让它自己创造流程。

知识沉淀与本体构建：解决人的问题，通过本体构建等方法，把专家经验标准化、结构化，让经验真正能够被表达、被沉淀、被执行。

工程化测试体系：建立闭环测试机制，确保 95% 甚至 99.7% 的执行准确率。这不是锦上添花，这是上线的底线。

Part.05

未完待续

后面的内容里，我会逐步拆解这套方法论，并结合当前前沿的技术实践，一步一步展开。

如果你对企业智能体落地、流程工程化、知识沉淀和测试闭环这些问题感兴趣，欢迎持续关注。我们一起学习，也一起把这件事真正做成。

发表于: 2026-04-102026-04-10 23:57:57
原文链接：https://page.om.qq.com/page/O21ykpZr6QKSWXI1LlrIHdoA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

为何企业Agent难以替代人工？揭秘大模型应用的三大难题

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐