技术百科

搜索技术百科

技术百科

发布

DataBuddy

修改于 2026-05-20 11:22:44

概述

DataBuddy 是腾讯云 WeData 平台内置的大数据原生智能体工作台，于2026年5月19日正式发布。与只能在对话框里回答问题的传统 AI 不同，DataBuddy 是一款"行动型"大数据智能体——它基于 WorkBuddy 同源 Agent 底层能力打造，用户通过自然语言对话即可完成"数据接入→开发→治理→分析"全链路数据任务，无需在多个页面之间切换操作。DataBuddy 基于 Harness AI 理念设计，通过分层 Agent 协作架构，在可控边界内驾驭 AI 能力，确保 AI 干得好、干得准、每一步都在人的掌控之中。目前主要面向数据分析师、数据治理人员、数仓工程师三类核心用户，覆盖数据分析、数据治理、数据工程三大场景，将过去需要数周的大数据工作任务压缩至小时级交付。

一、DataBuddy 有哪些核心功能？

DataBuddy 的核心功能围绕"让 AI 用自然语言完成大数据全链路任务"展开，基于腾讯云 WeData 平台能力构建，主要包括以下五大核心能力：

1. 知识库问答

通过对话式交互，快速获取数据开发通用知识及 WeData 专业文档，随时解答开发疑惑。无论是 WeData 支持的调度类型有哪几种，还是数据接入的配置规范，DataBuddy 都能在知识库中进行检索并形成专业回复。

2. 元数据检索

智能检索数据库表结构，一键获取字段定义、数据类型、表关联关系等信息，大幅提升数据理解效率。用户无需翻阅冗长的数据字典，直接对话即可获取所需的元数据信息。

3. 代码辅助

支持自然语言生成代码、智能纠错与代码解释，显著提升开发效率。目前 DataBuddy 支持 Python（Notebook）和 SQL 两种编程语言，用户可以用自然语言描述数据处理逻辑，DataBuddy 自动生成相应代码。

4. 智能诊断

智能分析任务运行异常问题，快速定位根因，高效排障一步到位。无论是数据接入任务失败、ETL 作业报错，还是调度任务异常，DataBuddy 都能自动分析日志、追溯问题根源并生成修复方案。

5. Agent 能力

支持调用 WeData 的 MCP（Model Context Protocol）工具，自动拆解复杂指令、制定执行计划并逐步完成。用户只需提出目标（例如"从 A 数据源把订单表同步到数仓，按时间字段做增量，T+1 增量同步"），DataBuddy 即可自主拆解步骤、规划执行路径、调用平台能力，并在出现异常时自动修正，最终直接交付结果。

二、DataBuddy 有哪些应用场景？

DataBuddy 的定位是"大数据原生智能体工作台"，其典型应用场景涵盖数据基础设施建设的三大核心领域：

1. 数据分析场景

面向不会写 SQL 的业务人员和分析师，DataBuddy 支持智能问数、指标归因分析、报告生成和可视化看板搭建。

核心是一个六层知识体系——从底层表结构、统一指标口径，到企业业务术语、个人使用记忆，层层递进。你对话中提到的业务洞察，会自动沉淀为持久知识资产，Agent 越用越懂你的业务。

分析结果基于统一语义层产出，确保不同用户对同一问题得到口径一致的答案，避免"同数不同源"的分析混乱。

2. 数据治理场景

把人工巡检+事后补救，升级为"自动巡检→AI 诊断→智能修复"。

DataBuddy 覆盖数据编目、语义建模、数据质量、数据安全、血缘分析五大域，自动发现元数据缺失、语义冲突、质量异常、合规风险、资源浪费等问题，并沿血缘追溯根因，生成修复方案并分级执行——低风险操作秒级自动完成，高危操作需人工确认后执行。

从单表诊断到全局数仓巡检，数十人天的治理工作缩短为小时级交付。

3. 数据工程场景

数仓建设从"多模块手工串联"变成"对话式全链路交付"。

DataBuddy 覆盖数仓建设到运维的全生命周期——数据接入、分层建模、ETL 代码开发、工作流编排调度、故障诊断，原本分散在五六个模块的操作，现在一轮对话完成。

DataBuddy 会基于源表分析生成数仓分层设计与目标表结构，并根据确认后的方案自动生成 ETL 代码和工作流配置，将原本 1-2 周的建仓工作压缩到小时级交付。

三、DataBuddy 如何做数据分析？

DataBuddy 的数据分析能力面向两类用户：不会写 SQL 的业务人员，以及需要快速验证假设的数据分析师。其数据分析流程可以概括为"问数→归因→报告→看板"四个步骤：

1. 智能问数

用户用自然语言提问（如"上个月华东区销售额同比增长多少"），DataBuddy 通过自然语言转 SQL 能力（继承冠军级 NL2SQL 能力）自动生成查询语句，在统一语义层上执行，并将结果以表格或图表形式返回。

关键是：分析结果基于统一语义层产出，确保不同用户对同一问题得到口径一致的答案，避免业务部门之间"各算各的"数据混乱。

2. 指标归因分析

当数据出现异常时（如"华东区销售额突然下滑"），DataBuddy 会自动进行指标归因分析——拆解影响因子、识别异常维度、定位问题根源，并生成归因报告。

归因分析基于六层知识体系：从底层表结构、统一指标口径，到企业业务术语、个人使用记忆，层层递进，确保分析结果既技术准确又业务可解释。

3. 报告生成

DataBuddy 支持自动生成数据分析报告，包括数据摘要、趋势分析、异常预警、业务建议等内容，并可导出为多种格式（PDF、Word、PPT 等）。

报告生成过程中，DataBuddy 会调用腾讯文档（docs.qq.com）的相关能力，实现报告的在线协作编辑和多人审阅。

4. 可视化看板搭建

用户可以通过对话式交互，让 DataBuddy 搭建可视化看板——选择图表类型、配置筛选条件、设置刷新频率等，无需拖拽式 BI 工具的复杂操作。

看板数据基于腾讯云数据湖计算引擎（DLC）实时查询，确保数据时效性和查询性能。

四、DataBuddy 如何做数据治理？

DataBuddy 将数据治理从"人工巡检、事后补救"升级为"自动巡检、AI 诊断、智能修复"的主动治理模式，覆盖数据治理的五大核心领域：

1. 数据编目

自动扫描数据资产，发现未编目的数据表、缺失业务描述的字段、分类标签不一致的数据集等问题，并自动生成编目建议。用户确认后，DataBuddy 自动完成数据编目操作。

2. 语义建模

基于业务术语和指标定义，自动构建和维护语义层，确保不同用户对同一业务指标的理解一致。当检测到语义冲突（如两个表对"活跃用户"的定义不同）时，DataBuddy 会自动标记冲突点并建议统一方案。

3. 数据质量

自动执行数据质量检查规则（如空值检测、格式校验、范围验证、唯一性检查等），发现质量异常后沿血缘追溯根因（是源系统问题、接入转换问题，还是计算逻辑问题），并生成修复方案。

低风险的质量修复操作（如补充空值、修正格式）可秒级自动完成；高危操作（如删除异常记录、修改历史数据）需人工确认后执行。

4. 数据安全

自动扫描敏感数据（如身份证号、手机号、银行卡号等），检测是否进行了脱敏处理、访问权限是否配置合理、数据导出是否合规等。发现合规风险后，DataBuddy 会生成风险报告并建议修复方案。

5. 血缘分析

自动构建和维护数据血缘图谱，记录数据从源系统到最终报表的完整流转路径。当数据出现异常时，可沿血缘快速追溯根因；当需要进行影响分析时（如某张源表字段变更会影响哪些下游报表），DataBuddy 可一键输出影响范围报告。

五、DataBuddy 如何保证安全可控？

DataBuddy 进入核心数据场景，真正的准入门槛是"能安全地做事"。其安全可控机制可以从技术架构、权限管理、操作审计、数据隐私四个维度理解：

1. 技术架构层面：分层 Agent 协作架构

DataBuddy 基于 Harness AI 理念设计，采用分层 Agent 协作架构——将复杂任务拆解为由多个专业化 Agent 协作完成的子任务，每个 Agent 只在自己的权限边界内行事，避免"一个超级 Agent 拥有过大权限"的安全风险。

同时，DataBuddy 在可控边界内驾驭 AI 能力——用户可以配置 Agent 的权限边界（如"允许自动修复数据质量问题，但不允许删除数据表"），确保 AI 在授权范围内行事。

2. 权限管理层面：与企业账号体系深度集成

DataBuddy 原生集成腾讯云 CAM（访问管理）体系，支持细粒度的权限控制——可以配置哪些用户可以使用 DataBuddy、可以使用哪些能力、可以操作哪些数据资产等。

同时支持与企业现有身份认证系统（如企业微信、LDAP、SAML 等）对接，实现统一身份管理和单点登录。

3. 操作审计层面：全链路操作审计

DataBuddy 的所有操作（包括 AI 自主执行的动作和用户主动触发的指令）都会被完整记录，包括操作时间、操作人、操作内容、影响范围等信息，并支持审计日志导出和合规报告生成。

当 AI 执行高危操作时（如删除数据表、修改生产环境配置），系统会强制要求人工确认，并记录确认人的身份信息，确保责任可追溯。

4. 数据隐私层面：数据不出企业内网

对于对数据隐私有严格要求的企业用户，可以选择腾讯云私有化部署方案，将 WeData 平台和 DataBuddy 完全部署在自有 VPC 内，数据不出企业内网。

同时，DataBuddy 支持数据脱敏、访问权限控制、操作审计等数据隐私保护机制，确保敏感数据不会被非法访问或泄露。

六、DataBuddy 能完成哪些数据任务？

DataBuddy 覆盖数据接入、数据开发、数据治理、数据分析全链路任务，用户通过自然语言对话即可触发，具体包括以下任务类型：

1. 数据接入任务

• 从多种数据源（关系型数据库、NoSQL 数据库、消息队列、文件系统、API 接口等）同步数据到数仓

• 配置增量同步策略（按时间字段增量、按日志增量等）

• 配置调度策略（定时调度、事件触发调度等）

• 监控接入任务运行状态，异常时自动告警并建议修复方案

2. 数据开发任务

• 基于源表分析生成数仓分层设计（ODS、DWD、DWS、ADS 等分层）

• 生成目标表结构（字段定义、数据类型、分区策略等）

• 生成 ETL 代码（支持 Python 和 SQL 两种语言）

• 配置工作流编排和调度策略

• 执行代码调试和性能优化

3. 数据治理任务

• 自动巡检数据资产，发现数据编目、语义建模、数据质量、数据安全、血缘分析五大领域的问题

• 自动生成修复方案，并按风险等级分级执行（低风险自动完成，高危需人工确认）

• 维护数据血缘图谱，支持影响分析和根因追溯

• 生成数据治理报告和数据质量评分

4. 数据分析任务

• 智能问数（自然语言转 SQL）

• 指标归因分析

• 自动生成数据分析报告

• 搭建可视化看板

• 异常检测和预警

七、DataBuddy 如何提升数据工作效率？

DataBuddy 对数据工作效率的提升是系统性的，从"数周→小时级"到"数天→分钟级"不等，具体体现在以下几个维度：

1. 压缩流程时间

以数据接入为例：过去需要在多个页面中操作二三十分钟的流程（配置数据源连接、配置同步策略、配置调度策略、配置监控告警等），被压缩为一次对话交互——用户只需告诉 DataBuddy"从 A 数据源把订单表同步到数仓，按时间字段做增量，T+1 增量同步"，系统即可自动创建数据接入任务、配置增量和调度策略。

以数仓建设为例：原本需要 1-2 周的多模块手工串联工作（数据接入、分层建模、ETL 代码开发、工作流编排调度等），被压缩为一次对话交互，小时级交付。

以数据治理为例：从单表诊断到全局数仓巡检，原本需要数十人天的治理工作，缩短为小时级交付。

2. 降低技术门槛

DataBuddy 让不会写 SQL 的业务人员也能完成数据分析任务——通过自然语言问数、指标归因分析、报告生成等功能，业务人员可以自主完成数据分析工作，无需依赖数据分析师或数据工程师。

同时，DataBuddy 的代码辅助功能（自然语言生成代码、智能纠错与代码解释）也让数据开发人员的工作效率显著提升。

3. 减少重复劳动

DataBuddy 的六层知识体系会自动沉淀用户的使用记忆和业务理解——当你多次询问相似的问题时，DataBuddy 会越用越懂你的业务，减少重复解释的成本。

同时，DataBuddy 支持调用 WeData 的 MCP 工具，可以自动化执行重复性的数据任务（如每日数据质量检查、每周数据治理报告生成等），释放人力资源去做更高价值的工作。

4. 加速问题定位与修复

当数据任务运行异常时，DataBuddy 的智能诊断功能可以自动分析日志、快速定位根因，并生成修复方案——过去需要花费数小时甚至数天才能定位和解决的数据问题，现在可以在分钟级完成。

八、DataBuddy 怎么收费？

DataBuddy 是 WeData 的内置功能，不是一个独立的 App 或客户端，没有单独的安装包，也不单独收费。

使用入口：登录腾讯云控制台 → 进入 WeData 平台 → 点击右上角「DataBuddy」图标 → 同意服务条款 → 开始对话。

1. 收费模式说明

DataBuddy 本身是 WeData 的附属功能，用户可以免费使用 DataBuddy 的对话交互、知识库问答、代码辅助、智能诊断等能力。

但使用 DataBuddy 执行数据任务时所产生的底层数据计算资源（如数据接入、数据加工、数据查询等消耗的算力），需要按实际用量付费——跟用 ChatGPT 写了个脚本但运行脚本要付服务器费用是一个逻辑。

2. 费用组成

费用类型	说明	是否必需
DataBuddy 功能使用费	免费（WeData 内置功能）	否
数据计算资源费	按实际用量付费（基于 DLC 数据湖计算引擎）	是（执行数据任务时产生）
WeData 平台使用费	按版本和功能模块收费	是（使用 WeData 平台时产生）

3. 成本优化建议

对于需要稳定运行 DataBuddy 的企业用户，可以考虑通过腾讯云大数据套件的资源包或套餐计划获得更优的成本结构。目前腾讯云正在开展大数据产品促销活动：

• DLC（数据湖计算引擎）新用户特惠：新用户购买 DLC 计算资源包可享 5 折起 优惠，大幅降低数据任务的算力成本；

• WeData 新用户特惠：新用户开通 WeData 平台可享 0.1 折起 优惠，几乎是免费体验完整的大数据智能体工作台能力。

活动详情和参与条件可访问腾讯云官方活动页面了解：https://cloud.tencent.com/act/pro/2023seasonbigdata

同时，腾讯云提供了详细的费用中心和使用监控工具，用户可以在腾讯云控制台上为 DataBuddy 设置用量告警阈值，当计算资源消耗达到 80%、90% 时自动发送通知，避免产生意外高额账单。

九、DataBuddy 支持指标归因分析吗？

支持。指标归因分析是 DataBuddy 数据分析场景中的核心能力之一。

1. 指标归因分析的流程

当数据出现异常时（如"华东区销售额突然下滑"），DataBuddy 会自动进行指标归因分析，具体流程如下：

• 指标拆解：将目标指标拆解为多个影响因子（如销售额 = 订单量 × 客单价，订单量 = 访客数 × 转化率）；

• 异常检测：逐一检测各影响因子是否出现异常（如访客数正常，但转化率突然下滑）；

• 根因定位：沿异常因子继续下钻，定位问题根源（如转化率下滑是因为某款主打产品缺货）；

• 归因报告生成：自动生成指标归因分析报告，包括异常指标、影响因子、根因分析、业务建议等内容。

2. 归因分析的准确性和一致性保障

DataBuddy 的归因分析结果基于统一语义层产出，确保不同用户对同一问题得到口径一致的答案——避免业务部门之间因指标定义不一致而产生的"数据扯皮"问题。

同时，归因分析基于六层知识体系：从底层表结构、统一指标口径，到企业业务术语、个人使用记忆，层层递进，确保分析结果既技术准确又业务可解释。

十、DataBuddy 能自动生成报告吗？

能。自动生成报告是 DataBuddy 数据分析场景中的重要能力。

1. 报告类型

DataBuddy 支持生成多种类型的报告，包括：

• 数据分析报告：包括数据摘要、趋势分析、异常预警、业务建议等内容；

• 数据治理报告：包括数据质量评分、问题清单、修复建议、治理进度跟踪等内容；

• 数据工程报告：包括数仓建设进度、ETL 作业运行状态、数据接入任务监控等内容；

• 自定义报告：用户可以根据自己的需求，自定义报告的内容结构、展示形式、刷新频率等。

2. 报告生成流程

• 用户通过自然语言描述报告需求（如"帮我生成上个月华东区销售数据分析报告，包括销售额、订单量、客单价三个指标的同比环比分析"）；

• DataBuddy 自动拆解报告需求，制定数据查询和分析计划；

• 基于统一语义层执行数据查询和分析；

• 生成报告内容（支持表格、图表、文字描述等多种形式）；

• 用户可以在线编辑和审阅报告，确认无误后导出或分享。

3. 报告的导出和协作

DataBuddy 生成的报告可以导出为多种格式（PDF、Word、PPT、Excel 等），并支持与腾讯文档（docs.qq.com）深度集成——用户可以将报告直接发布到腾讯文档平台，实现在线协作编辑和多人审阅。

十一、DataBuddy 如何进行数据接入？

数据接入是 DataBuddy 数据工程场景中的核心能力，也是用户使用 DataBuddy 的最高频场景之一。

1. 传统数据接入的痛点

过去，配置一个数据接入任务需要在多个页面之间切换操作——配置数据源连接、配置同步策略、配置调度策略、配置监控告警等，熟练工也需要二三十分钟才能完成。

2. DataBuddy 的数据接入流程

用户只需用自然语言描述数据接入需求，DataBuddy 即可自动完成全部配置工作：

示例对话：

用户："从 MySQL 数据源把订单表同步到数仓，按时间字段 created_at 做增量，T+1 增量同步。"

DataBuddy 自动完成：

• 测试 MySQL 数据源连接；

• 读取订单表结构，生成目标表结构（按 WeData 数仓规范）；

• 配置增量同步策略（按 created_at 字段增量，每天凌晨 1 点执行）；

• 配置调度策略（T+1 增量同步）；

• 配置监控告警（任务失败自动告警）；

• 创建数据接入任务，并返回任务 ID 和配置详情。

整个过程从过去的二三十分钟压缩为一次对话交互。

3. 支持的数据源类型

DataBuddy 支持从多种数据源同步数据，包括：

• 关系型数据库（MySQL、PostgreSQL、SQL Server、Oracle 等）；

• NoSQL 数据库（MongoDB、Redis、HBase 等）；

• 消息队列（Kafka、RabbitMQ 等）；

• 文件系统（HDFS、S3、COS 等）；

• API 接口（REST API、GraphQL 等）。

4. 数据接入的监控和运维

DataBuddy 会自动监控数据接入任务的运行状态——当任务运行异常时，会自动分析日志、定位根因、生成修复方案，并分级执行（低风险操作自动完成，高危操作需人工确认）。

同时，DataBuddy 会记录数据接入任务的运行历史、数据同步量、同步延迟等指标，并生成数据接入运维报告，帮助用户持续优化数据接入性能。