
大模型的爆发,不仅改变了软件的交互方式和商业模式,也在重塑数据基础设施本身。作为在大数据领域工作了十多年的从业者,我深刻感受到这个行业正在经历一场深刻的变革。
在之前的文章从 Palantir 本体论到神策 SDAF 闭环:数据驱动决策闭环的两种实现路径中,我提到过一个观点:数据系统应该是“数字驾驶舱”而非“数字博物馆”。所谓“数字博物馆”,是指数据只是用来观赏的——做完分析、看完报表就结束了,数据躺在那里不产生行动。而“数字驾驶舱”则意味着数据能直接驱动决策和执行。
如今,大模型的出现让这个转变又有了新的可能性,但同时也对数据系统提出了新的要求。在这篇文章中,我想从大数据从业者的视角,聊聊大模型时代给这个行业带来的根本性变革,以及该如何应对。
PART01
大数据时代的核心能力与痛点
01. 大数据的价值主张
过去十年,大数据行业的核心价值主张是什么?简单来说,就是帮助企业“用数据做决策”。这个过程通常包括以下环节:
1.数据采集:从各个业务系统中采集用户行为、交易记录、设备日志等数据。
2.数据存储:将海量数据存储在数据仓库或数据湖中。
3.数据分析:通过 SQL、BI 工具、数据挖掘等手段,从数据中提取洞察。
4.数据可视化:将分析结果以报表、大屏、Dashboard 等形式展示给决策者。
5.决策与行动:决策者基于分析的结果,做出决策,并且采取行动,包括调整企业运营策略、对用户进行精细化运营等。
这套体系在过去十年服务了无数企业,也诞生了包括一大批优秀的大数据公司。
02. 大数据的核心痛点
但我觉得,这套体系也存在明显的痛点:
1. 可操作性鸿沟
正如我在从 Palantir 本体论到神策 SDAF 闭环:数据驱动决策闭环的两种实现路径中提到的,企业的核心挑战不是“看不到数据”,而是“看到了数据之后不知道该做什么”,或者“知道该做什么但执行不了”。
数据分析师做出了精美的报表,清晰指出了“应该提升某个环节的转化率”,但具体怎么提升?需要产品经理设计方案、开发团队实现功能、运营团队执行动作。这个链条是如此之长,导致很多数据洞察最终只能停留在报表和 PPT 上。
很多企业花了大价钱建设数据中台、数据湖,采集了海量数据,但这些数据大部分时间都在“沉睡”——偶尔有人查询一下、做个报表,然后又回归沉寂。数据没有真正进入业务的执行环节,更像是一个“数字博物馆”,展示过去发生了什么,但对未来的行动影响有限。
为了解决这个问题,很多企业提供了类似于陪跑之类的服务,希望能够通过更有经验的人的参与,来部分缓解这一问题,但也会面临知识的积累和规模化的挑战。
2. 数据类型的局限
传统大数据系统主要处理的是结构化数据和半结构化数据(如用户行为日志、交易记录、传感器数据等)。对于非结构化数据(如客服对话记录、用户反馈文本、产品文档、视频内容等),要么不采集,要么采集了也很难利用。
这导致大量有价值的信息被浪费。比如,客服系统里躺着成千上万条用户反馈,但因为是文本形式,分析起来成本极高,最终只能靠人工抽样或简单的关键词统计。
而这些非结构化数据,其实可能在很多场景发挥重要作用:
即便采集了非结构化数据,处理起来也困难重重:
这两个痛点导致很多企业即便想用好数据,也面临“有心无力”的困境。
PART02
大模型带来的两个变革
大模型的出现,为解决这些痛点提供了新的可能性。从我的观察来看,大模型给大数据行业带来的变革主要体现在两个方面:
这两个变革就让上文提到的痛点有了可能更好的解决办法。
变革一:提供了对非结构化数据的强大处理能力
传统大数据系统对非结构化数据“心有余而力不足”——要么不采集,要么采集了处理成本极高。而大模型天然具备理解和处理非结构化数据的能力,这带来了三个方面的突破:
1. 从“人工标注”到“自动理解”
过去,要让机器理解一段客服对话,需要人工标注意图、情感、关键实体,然后训练 NLP 模型。成本高、周期长、效果还不一定好。
现在,大模型可以直接理解对话内容,提取关键信息,甚至自动分类和总结。这让非结构化数据的处理成本大幅降低。以前“成本太高做不了”的分析,现在可以自动化了。
2. 多模态数据的统一处理
不仅是文本,图片、音频、视频等多模态数据也可以被大模型理解和分析:
这意味着,以前“看得到但用不上”的非结构化数据,现在都可以纳入数据体系,在后续的分析、决策和运营中发挥重要作用。
变革二:提供了更好地使用和泛化已有知识的能力
变革一解决了“数据类型局限”的问题,但更关键的是:大模型提供了一种全新的方式来使用和泛化已有知识,让数据真正从“博物馆”变成“生产线”。
这个能力体现在两个层面:
1. 从“静态知识库”到“动态知识提取与应用”
传统的知识库是人工整理的文档和 FAQ,更新缓慢、覆盖有限。而大模型可以:
以前“需要人工总结”的知识,现在可以机器提取;以前“需要人工查询”的知识,现在可以智能推荐。
2. 从“事后分析”到“实时决策与执行”(解决可操作性鸿沟)
更关键的是,大模型可以基于知识做出决策,并驱动实际行动。这正是解决“可操作性鸿沟”的关键。
链条大幅缩短,甚至可以全自动闭环。
比如:
这让数据真正从“博物馆”变成了“生产线”——不再只是用来观赏和分析,而是能够被 AI Agent 消费、处理、转化为实际行动。数据洞察不再停留在 PPT 上,而是直接转化为业务价值。
更重要的是,AI Agent 在执行过程中产生的新数据(用户反馈、执行结果、异常情况)又会反馈回数据系统,不断优化知识库和决策模型,形成持续进化的闭环。
PART03
数据系统的架构演进
面对这两个变革,数据系统该如何演进?
01. 从“分析中台”到“AI 生产线”
传统的数据中台主要服务于“人的分析决策”,核心是提供 BI 工具、报表系统、数据查询接口。
而在大模型时代,数据系统需要转变为“AI 生产线”,核心是为 AI Agent 提供可理解、可信赖、可追溯的知识和上下文。
这个转变涉及几个关键点:
1. 数据采集的扩展
2. 数据存储的分层
借鉴 Palantir 的思路,数据存储需要分层设计。在神策的实践中,我们构建了从数据层到 Agent 层的完整架构,如下图所示:

这套架构的核心思想是:既保证了数据的规范性,又解决了 LLM 处理业务指标的精度问题,还让上层应用能”低成本、高效率“地使用数据。
3. 知识的分层构建
除了数据分层,知识的分层构建同样重要。在神策的实践中,我们将知识库分为多个层次,如下图所示:

底层:知识 / 数据准备层
对结构化表格数据和非结构化文档数据做基础加工,让原始信息具备”被机器理解“的能力:
中间层:知识构建层
解决“自然语言歧义、知识关联弱”的问题,让知识更“精准可用”:
顶层:场景化应用层
支撑“用户多轮交互”的需求:
这套分层知识体系,从通用知识到行业知识,再到企业专属知识,层层递进:
数据系统也不再只是提供面向人的产品使用界面、面向外部系统的 OpenAPI,而是要提供面向 Agent 的智能服务。
02. 与 SDAF 闭环的结合
在神策,我们一直在推动 SDAF 闭环(Sense - Decide - Act - Feedback):
在大模型时代,这个闭环的每个环节都可以变得更智能:
这样,数据系统就从“给人看的分析工具”变成了“AI 驱动的智能引擎”。
PART04
对大数据行业的启示
这两个变革对大数据行业意味着什么?
1. 数据采集的边界扩大了
以前,我们主要关注用户行为数据、交易数据等结构化数据。现在,企业的所有信息资产——文档、对话、邮件、会议记录、视频资料——都应该纳入数据体系。
这对数据采集工具提出了新的要求:不仅要采集行为,还要采集内容;不仅要采集结构化数据,还要采集非结构化数据;不仅要支持批量导入,还要支持实时流式采集。
2. 数据处理的能力升级了
大模型让我们第一次有能力大规模、低成本地处理非结构化数据。这意味着:
这是一个巨大的能力跃迁。
3. 数据系统的角色转变了
从“给人看”到“给 AI 用”,从“分析工具”到“智能引擎”,从“博物馆”到“生产线”。
数据系统不再只是提供报表和 Dashboard,而是要成为 AI Agent 的“燃料库”和“知识大脑”。
这也意味着,大数据公司需要重新思考自己的产品定位和商业模式。正如我在《2B 软件到底该卖什么?》中提到的,未来可能需要从“交付工具”转向“交付效果”——不是卖一套数据平台,而是卖“基于数据和 AI 的业务增长”。
4. 对神策的思考
在神策,我们一直在思考如何应对这个变革。
一方面,我们在扩展数据采集的范围,不仅采集用户行为,也在尝试采集用户反馈、客服对话、产品文档等非结构化数据。
另一方面,我们在探索如何将数据转化为 Agent 可用的知识库,如何让 AI Agent 基于数据做出决策并执行行动,如何将执行结果反馈回数据系统形成闭环。
这个过程中也遇到了不少挑战:
但我相信,这是大数据行业必须要走的路。
大模型的出现,让数据系统从“博物馆”变成“生产线”成为可能。对于大数据从业者来说,这既是挑战,也是机遇。我们需要重新思考数据采集、存储、处理、服务的每个环节,也需要重新定义大数据产品的价值主张和商业模式。
上述所有观点只代表我个人看法,希望能够对大家有所帮助。有错漏之处不可避免,还请大家谅解。
欢迎大家与我交流,可通过关注公众号、在评论区留言,或加入微信读者群与我探讨。