大模型时代的数据新范式：从“博物馆”到“生产线”

曹犟

发布于 2026-01-16 11:47:05

2070

大模型的爆发，不仅改变了软件的交互方式和商业模式，也在重塑数据基础设施本身。作为在大数据领域工作了十多年的从业者，我深刻感受到这个行业正在经历一场深刻的变革。

在之前的文章从 Palantir 本体论到神策 SDAF 闭环：数据驱动决策闭环的两种实现路径中，我提到过一个观点：数据系统应该是“数字驾驶舱”而非“数字博物馆”。所谓“数字博物馆”，是指数据只是用来观赏的——做完分析、看完报表就结束了，数据躺在那里不产生行动。而“数字驾驶舱”则意味着数据能直接驱动决策和执行。

如今，大模型的出现让这个转变又有了新的可能性，但同时也对数据系统提出了新的要求。在这篇文章中，我想从大数据从业者的视角，聊聊大模型时代给这个行业带来的根本性变革，以及该如何应对。

PART01

大数据时代的核心能力与痛点

01. 大数据的价值主张

过去十年，大数据行业的核心价值主张是什么？简单来说，就是帮助企业“用数据做决策”。这个过程通常包括以下环节：

1.数据采集：从各个业务系统中采集用户行为、交易记录、设备日志等数据。

2.数据存储：将海量数据存储在数据仓库或数据湖中。

3.数据分析：通过 SQL、BI 工具、数据挖掘等手段，从数据中提取洞察。

4.数据可视化：将分析结果以报表、大屏、Dashboard 等形式展示给决策者。

5.决策与行动：决策者基于分析的结果，做出决策，并且采取行动，包括调整企业运营策略、对用户进行精细化运营等。

这套体系在过去十年服务了无数企业，也诞生了包括一大批优秀的大数据公司。

02. 大数据的核心痛点

但我觉得，这套体系也存在明显的痛点：

1. 可操作性鸿沟

正如我在从 Palantir 本体论到神策 SDAF 闭环：数据驱动决策闭环的两种实现路径中提到的，企业的核心挑战不是“看不到数据”，而是“看到了数据之后不知道该做什么”，或者“知道该做什么但执行不了”。

数据分析师做出了精美的报表，清晰指出了“应该提升某个环节的转化率”，但具体怎么提升？需要产品经理设计方案、开发团队实现功能、运营团队执行动作。这个链条是如此之长，导致很多数据洞察最终只能停留在报表和 PPT 上。

很多企业花了大价钱建设数据中台、数据湖，采集了海量数据，但这些数据大部分时间都在“沉睡”——偶尔有人查询一下、做个报表，然后又回归沉寂。数据没有真正进入业务的执行环节，更像是一个“数字博物馆”，展示过去发生了什么，但对未来的行动影响有限。

为了解决这个问题，很多企业提供了类似于陪跑之类的服务，希望能够通过更有经验的人的参与，来部分缓解这一问题，但也会面临知识的积累和规模化的挑战。

2. 数据类型的局限

传统大数据系统主要处理的是结构化数据和半结构化数据（如用户行为日志、交易记录、传感器数据等）。对于非结构化数据（如客服对话记录、用户反馈文本、产品文档、视频内容等），要么不采集，要么采集了也很难利用。

这导致大量有价值的信息被浪费。比如，客服系统里躺着成千上万条用户反馈，但因为是文本形式，分析起来成本极高，最终只能靠人工抽样或简单的关键词统计。

而这些非结构化数据，其实可能在很多场景发挥重要作用：

用户反馈文本：可以帮助产品团队快速识别产品问题、发现用户需求趋势，但传统方式只能靠人工抽样阅读。
客服对话记录：蕴含着用户真实的痛点和使用场景，但因为量大且非结构化，难以系统性分析和应用。
业务文档和邮件：记录了业务决策的背景和逻辑，但散落各处，无法形成可复用的知识库。
会议纪要和沟通记录：包含了大量隐性知识和最佳实践，但提取成本高，更新维护困难。

即便采集了非结构化数据，处理起来也困难重重：

人工标注成本高：要让机器理解一段客服对话，需要人工标注意图、情感、关键实体，然后训练 NLP 模型，成本高、周期长。
知识提取依赖人工：产品文档、用户反馈、销售对话中蕴含大量知识，但提取和整理需要大量人力。
更新缓慢：传统知识库通常是人工维护的文档和 FAQ，更新缓慢、覆盖有限。

这两个痛点导致很多企业即便想用好数据，也面临“有心无力”的困境。

PART02

大模型带来的两个变革

大模型的出现，为解决这些痛点提供了新的可能性。从我的观察来看，大模型给大数据行业带来的变革主要体现在两个方面：

一是提供了对非结构化数据的强大处理能力。
二是提供了更好地使用和泛化已有知识的能力。

这两个变革就让上文提到的痛点有了可能更好的解决办法。

变革一：提供了对非结构化数据的强大处理能力

传统大数据系统对非结构化数据“心有余而力不足”——要么不采集，要么采集了处理成本极高。而大模型天然具备理解和处理非结构化数据的能力，这带来了三个方面的突破：

1. 从“人工标注”到“自动理解”

过去，要让机器理解一段客服对话，需要人工标注意图、情感、关键实体，然后训练 NLP 模型。成本高、周期长、效果还不一定好。

现在，大模型可以直接理解对话内容，提取关键信息，甚至自动分类和总结。这让非结构化数据的处理成本大幅降低。以前“成本太高做不了”的分析，现在可以自动化了。

2. 多模态数据的统一处理

不仅是文本，图片、音频、视频等多模态数据也可以被大模型理解和分析：

电商平台可以自动分析商品图片，提取商品属性和质量问题。
短视频平台可以理解视频内容，自动生成标签和推荐理由。
工业场景可以分析监控视频，识别异常情况和安全隐患。

这意味着，以前“看得到但用不上”的非结构化数据，现在都可以纳入数据体系，在后续的分析、决策和运营中发挥重要作用。

变革二：提供了更好地使用和泛化已有知识的能力

变革一解决了“数据类型局限”的问题，但更关键的是：大模型提供了一种全新的方式来使用和泛化已有知识，让数据真正从“博物馆”变成“生产线”。

这个能力体现在两个层面：

1. 从“静态知识库”到“动态知识提取与应用”

传统的知识库是人工整理的文档和 FAQ，更新缓慢、覆盖有限。而大模型可以：

自动提取知识：从海量的数据分析报告、业务文档、项目案例、技术文档中自动提取知识，构建动态更新的知识图谱
- 从产品使用手册中，找到如何调用智能运营系统编排客户旅程。
- 从历史分析报告中提取各行业的典型数据指标体系和分析模型。
- 从成功案例中总结不同业务场景下的数据应用最佳实践。
- 从客户沟通记录中梳理常见数据需求和解决方案。
灵活应用知识：不是简单的关键词匹配，而是理解语义和上下文，灵活运用知识
- 业务人员问“为什么这个渠道的转化率突然下降”，AI 不仅能调取相关数据指标，还能结合历史异常案例、营销活动时间表、竞品动态自动给出可能的原因和建议。
数据分析师想要构建“电商行业的指标体系”，AI 能从过往项目文档、行业报告、成功案例中综合提取答案并推荐报表模板。

以前“需要人工总结”的知识，现在可以机器提取；以前“需要人工查询”的知识，现在可以智能推荐。

2. 从“事后分析”到“实时决策与执行”（解决可操作性鸿沟）

更关键的是，大模型可以基于知识做出决策，并驱动实际行动。这正是解决“可操作性鸿沟”的关键。

传统数据系统的链条是：数据 → 分析 → 报表 → 人工决策 → 人工执行。链条很长，容易断裂。
而大模型驱动的系统可以做到：数据 → AI 理解 → AI 决策 → 自动执行 → 反馈优化。

链条大幅缩短，甚至可以全自动闭环。

比如：

智能数据运营：发现某个用户群体的活跃度下降后，不仅能分析原因（产品改版影响、竞品冲击、季节性因素等），还能自动生成针对性的运营方案，并通过营销自动化系统执行召回动作——从“发现问题”到“解决问题”，全程自动化。
智能数据监控与响应：当监测到关键业务指标异常时，AI 能自动分析上下游数据链路，定位问题根源（是数据采集故障、业务异常还是算法问题），并自动触发告警、生成诊断报告，甚至执行预设的修复动作——从“看到数据”到“采取行动”，闭环自动完成。
智能分析助手：业务人员用自然语言描述分析需求（比如“分析一下上个月新用户的留存情况，按渠道分组”），AI 自动生成 SQL、执行查询、制作可视化图表，并给出洞察建议——从“提出需求”到“获得答案”，大幅缩短链条。

这让数据真正从“博物馆”变成了“生产线”——不再只是用来观赏和分析，而是能够被 AI Agent 消费、处理、转化为实际行动。数据洞察不再停留在 PPT 上，而是直接转化为业务价值。

更重要的是，AI Agent 在执行过程中产生的新数据（用户反馈、执行结果、异常情况）又会反馈回数据系统，不断优化知识库和决策模型，形成持续进化的闭环。

PART03

数据系统的架构演进

面对这两个变革，数据系统该如何演进？

01. 从“分析中台”到“AI 生产线”

传统的数据中台主要服务于“人的分析决策”，核心是提供 BI 工具、报表系统、数据查询接口。

而在大模型时代，数据系统需要转变为“AI 生产线”，核心是为 AI Agent 提供可理解、可信赖、可追溯的知识和上下文。

这个转变涉及几个关键点：

1. 数据采集的扩展

不仅采集结构化行为数据，还要采集文本、图片、音频、视频等多模态数据；
不仅采集业务系统的数据，还要采集协作工具、沟通记录、文档资料等“暗数据”；
采集时保留原始的非结构化形式，而不是强行结构化（因为大模型可以理解非结构化数据）。

2. 数据存储的分层

借鉴 Palantir 的思路，数据存储需要分层设计。在神策的实践中，我们构建了从数据层到 Agent 层的完整架构，如下图所示：

数据层（Data Layer）：按照业务域治理数据，包括主数据表（Master Data Table）和事务数据表（Transactional Data Table），这是数据的原始存储层。
语义层（Semantic Layer）：建立字段关联，虚拟层无数据存储。将原始数据映射为业务实体和关系（用户、订单、产品、行为等），解决“数据如何被理解”的问题。
指标层（Metrics Layer）：提前定义 LLM 无法准确定义口径和计算逻辑的指标，虚拟层无数据存储。比如“活跃用户 = 3 个月内登录超过 1 次 + 个人信息维护完成度大于 70%“这种复杂指标，需要在这一层固化，避免 AI 理解偏差。
MCP 层（Model Context Protocol Layer）：对指标层和语义层进行封装，方便 Agent 调用。这一层是连接数据与 AI 的关键桥梁。
Agent 层：预定义各种场景的数据处理逻辑和跨业务域数据查询整合的逻辑，实现智能化的数据分析和决策。

这套架构的核心思想是：既保证了数据的规范性，又解决了 LLM 处理业务指标的精度问题，还让上层应用能”低成本、高效率“地使用数据。

3. 知识的分层构建

除了数据分层，知识的分层构建同样重要。在神策的实践中，我们将知识库分为多个层次，如下图所示：

底层：知识 / 数据准备层

对结构化表格数据和非结构化文档数据做基础加工，让原始信息具备”被机器理解“的能力：

表格字段值向量化：将数据库中的字段值转换为向量，比如：将”China”、“UK”、“Xian”、“London”等地理信息向量化，便于 AI 理解数据之间的关系。
文档场景化切片：根据文档类型（PPT、PDF、HTML 等）进行场景化切片，识别 title、图文、表格、超链接，保证切片段落的语义完整性。
主题提取：从文档段落中提取主题，形成可检索的知识单元。

中间层：知识构建层

解决“自然语言歧义、知识关联弱”的问题，让知识更“精准可用”：

同义词表：处理不同表述的相同概念（如“GMV”、“成交额”、“交易金额”）。
歧义消解：当用户问“转化率”时，明确是指“注册转化率”还是“支付转化率”。
知识图谱：建立实体之间的关联关系，如“用户 → 订单 → 商品”的链路。
模糊匹配规则：处理用户输入的不精确表述。

顶层：场景化应用层

支撑“用户多轮交互”的需求：

上下文关键词提取：记住对话历史里的关键信息，保证逻辑连贯。
用户画像补全：结合用户历史数据，让交互更个性化。
话术模板：规范回复的格式 / 风格，提升专业性。
多轮对话编排：根据不同业务场景，设计不同的对话流程。
工作流配置：预定义分析场景的标准流程。

这套分层知识体系，从通用知识到行业知识，再到企业专属知识，层层递进：

跨行业通用知识：各行业通用的营销方法和分析方法
行业级通用知识：行业级数据分析、策略设计与效果回检，以及行业通用术语及口径
场景级知识：场景基本知识和业务增长思路（如银行的工资代发 / 新户激活 / 财富提升等场景）
企业专属知识：企业专属元数据、历史策略库、业务术语、运营要素及组织说明等

数据系统也不再只是提供面向人的产品使用界面、面向外部系统的 OpenAPI，而是要提供面向 Agent 的智能服务。

02. 与 SDAF 闭环的结合

在神策，我们一直在推动 SDAF 闭环（Sense - Decide - Act - Feedback）：

Sense（感知）：采集多模态数据；
Decide（决策）：基于数据和知识做出决策（现在可以由 AI Agent 完成）；
Act（行动）：执行决策（可以是自动化执行，也可以是辅助人工执行）；
Feedback（反馈）：将执行结果反馈回数据系统，持续优化。

在大模型时代，这个闭环的每个环节都可以变得更智能：

Sense 可以理解非结构化数据；
Decide 可以由 AI Agent 自主完成；
Act 可以通过 Agent 自动执行；
Feedback 可以自动更新知识库和模型。

这样，数据系统就从“给人看的分析工具”变成了“AI 驱动的智能引擎”。

PART04

对大数据行业的启示

这两个变革对大数据行业意味着什么？

1. 数据采集的边界扩大了

以前，我们主要关注用户行为数据、交易数据等结构化数据。现在，企业的所有信息资产——文档、对话、邮件、会议记录、视频资料——都应该纳入数据体系。

这对数据采集工具提出了新的要求：不仅要采集行为，还要采集内容；不仅要采集结构化数据，还要采集非结构化数据；不仅要支持批量导入，还要支持实时流式采集。

2. 数据处理的能力升级了

大模型让我们第一次有能力大规模、低成本地处理非结构化数据。这意味着：

以前“采集了但用不上”的数据，现在可以发挥价值了；
以前“成本太高做不了”的分析，现在可以自动化了；
以前“需要人工总结”的知识，现在可以机器提取了。

这是一个巨大的能力跃迁。

3. 数据系统的角色转变了

从“给人看”到“给 AI 用”，从“分析工具”到“智能引擎”，从“博物馆”到“生产线”。

数据系统不再只是提供报表和 Dashboard，而是要成为 AI Agent 的“燃料库”和“知识大脑”。

这也意味着，大数据公司需要重新思考自己的产品定位和商业模式。正如我在《2B 软件到底该卖什么？》中提到的，未来可能需要从“交付工具”转向“交付效果”——不是卖一套数据平台，而是卖“基于数据和 AI 的业务增长”。

4. 对神策的思考

在神策，我们一直在思考如何应对这个变革。

一方面，我们在扩展数据采集的范围，不仅采集用户行为，也在尝试采集用户反馈、客服对话、产品文档等非结构化数据。

另一方面，我们在探索如何将数据转化为 Agent 可用的知识库，如何让 AI Agent 基于数据做出决策并执行行动，如何将执行结果反馈回数据系统形成闭环。

这个过程中也遇到了不少挑战：

非结构化数据的采集和存储成本更高；
知识抽取的准确性和时效性需要平衡；
Agent 的决策需要可解释性和可追溯性；
隐私和安全的要求更高。

但我相信，这是大数据行业必须要走的路。

大模型的出现，让数据系统从“博物馆”变成“生产线”成为可能。对于大数据从业者来说，这既是挑战，也是机遇。我们需要重新思考数据采集、存储、处理、服务的每个环节，也需要重新定义大数据产品的价值主张和商业模式。

上述所有观点只代表我个人看法，希望能够对大家有所帮助。有错漏之处不可避免，还请大家谅解。

欢迎大家与我交流，可通过关注公众号、在评论区留言，或加入微信读者群与我探讨。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-11-25，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据

本文分享自曹犟的随笔微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

大模型时代的数据新范式：从“博物馆”到“生产线”

大模型时代的数据新范式：从“博物馆”到“生产线”

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐