首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >打通 AI Agent 与实时数仓:Apache Doris MCP Server 与 Dify 实战

打通 AI Agent 与实时数仓:Apache Doris MCP Server 与 Dify 实战

作者头像
数据极客圈
发布2026-06-25 17:03:43
发布2026-06-25 17:03:43
60
举报

叮咚✨欢迎走进「数据极客圈」!专注大数据、AI 技术交流,大咖分享一线经验,持续输出实用技术锦囊。聚集同行伙伴,交流共进,欢迎关注加入!

前言

随着 AI Agent、RAG 知识库、ChatBI 智能分析全面普及,大模型 / 智能体要读取业务实时数据,通常需要单独开发 API、做权限封装、处理多数据源适配。一套 RAG 链路往往要对接向量库 + 数仓 + 检索引擎,开发周期长、链路复杂。

Apache Doris 原生 MCP Server(Model Context Protocol),作为 AI 与实时数仓的标准化桥梁。任意兼容 MCP 协议的大模型、Agent、低代码 AI 平台,都可以通过统一的协议直接调用 Doris 的查询、元数据、执行计划、慢查询诊断等能力,无需二次开发数据接口。

一、什么是 Doris MCP Server?

1. MCP 协议简介

MCP(Model Context Protocol)是基于 JSON-RPC 2.0 的标准化 AI 工具交互协议,统一规范了工具调用、资源读取、流式返回、权限鉴权。Claude、Cursor、Dify 等兼容 MCP 的客户端无需为不同大模型单独适配数据接口。

2. Doris MCP Server 定位

Doris MCP Server 是官方开源的独立服务(Python + FastAPI 实现),部署在 Doris 集群外侧,作为中间层承接 AI 客户端请求,封装 Doris 底层能力,对外输出标准化的工具集。

架构链路
代码语言:javascript
复制
AI Agent / Dify / Claude → MCP Server → Apache Doris 集群
  • 上层:MCP 客户端(各类 AI 应用)
  • 中间:MCP Server(鉴权、工具路由、SQL 封装、结果返回)
  • 底层:Doris(实时明细、聚合指标、Iceberg/Hudi 外表、元数据)

3. 内置工具集

当前版本(v0.6.0)共注册 25 个工具,涵盖以下类别:

(1)元数据查询
  • get_db_list — 列出所有数据库
  • get_db_table_list — 列出指定库的所有表
  • get_table_schema — 查看表字段、类型、注释等结构信息
  • get_table_comment — 查看表注释
  • get_table_column_comments — 查看所有列注释
  • get_table_indexes — 查看表索引
  • get_catalog_list — 列出所有 Catalog(含 Iceberg/Hudi 等外部数据源)
(2)SQL 执行与诊断
  • exec_query — 执行任意 SQL 查询
  • get_sql_explain — 获取 SQL 执行计划
  • get_sql_profile — 获取 SQL 执行 Profile 用于慢查询诊断
  • get_table_data_size — 查看表数据大小
  • get_recent_audit_logs — 查看审计日志
(3)监控观测
  • get_monitoring_metrics — 获取 FE/BE 监控指标
  • get_memory_stats — 获取 BE 节点内存统计(实时 / 历史)
(4)数据分析
  • get_table_basic_info — 表基本信息(行数、列数、分区等)
  • analyze_columns — 列级数据分析(完整度、分布)
  • analyze_table_storage — 表物理存储分析
  • analyze_slow_queries_topn — 慢查询 Top-N 分析

4. 四大特点

  1. 架构简洁:一套 MCP 服务同时支持结构化查询、元数据探查、慢查询诊断,不需要额外对接多种接口;
  2. 适配实时数据:Doris 端到端数据延迟低至秒级,Agent 可基于最新业务数据做实时决策;
  3. 企业级安全:支持 Token / JWT / OAuth 多种鉴权方式,可配置 SQL 注入防护和操作权限控制;
  4. 多通信模式:支持 Streamable HTTP 和 Stdio 两种传输方式,适配 Web 平台、本地客户端等不同场景。

二、主流业务场景

  1. ChatBI 自然语言数据分析:业务人员用自然语言查询销售、用户等实时数据,AI 自动查表结构、生成 SQL、返回结果;
  2. 企业 RAG 智能知识库:Agent 通过 MCP 读取 Doris 内文档向量与业务标签,混合检索精准召回资料;
  3. AI 实时风控:Agent 定时调用 Doris 实时交易数据,自动识别异常行为并预警;
  4. 数据库智能运维:自动抓取慢查询、集群负载,生成优化建议,替代人工巡检;
  5. 个性化实时推荐:Agent 调用商品向量与用户行为实时数据,毫秒级生成个性化推荐列表。

三、完整实战:Dify + Doris MCP 搭建企业 ChatBI 系统

业务背景

零售企业实时销售数据全部存储在 Apache Doris,包含订单明细表、商品维度表、渠道汇总表。

需求:搭建 ChatBI,让运营、销售同事直接用自然语言查询实时销量、同比增长、爆款商品,无需找数据分析师写 SQL。

环境准备

  1. Apache Doris 集群(推荐 3.1+),已导入销售业务数据;
  2. Python 3.12 及以上;
  3. Dify AI 平台(本地或云端均可);
  4. 开源仓库:https://github.com/apache/doris-mcp-server

步骤 1:部署 Doris MCP Server

1.1 安装
代码语言:javascript
复制
# 方式一:从 PyPI 安装
pip install doris-mcp-server

# 方式二:从源码安装
git clone https://github.com/apache/doris-mcp-server.git
cd doris-mcp-server
pip install -r requirements.txt
1.2 启动服务
代码语言:javascript
复制
# 修改环境变量
cp .env.example .env
# 然后在.env 里面添加Doris的配置
vim .env
# 然后直接启动
./start_server.sh

启动后会看到日志

1.3 验证服务
代码语言:javascript
复制
curl http://127.0.0.1:3000/health

返回 healthy 代表部署成功,MCP 接口地址为 http://IP:3000/mcp

步骤 2:Dify 平台接入 MCP

  1. 菜单栏打开「工具」→ 新增插件 → 选择「MCP SSE 服务」;
  1. 填入 MCP 接口地址(如 http://你的服务器:3000/mcp
  1. 登录 Dify 后台 → 进入「工作室」→ 创建Agent应用(ChatBI);
  1. 加载工具列表,Dify 自动同步 Doris MCP 的全部工具;
  1. 配置提示词模板:
代码语言:javascript
复制
你是Doris企业专属实时数据分析助手,仅允许调用Doris MCP工具查询数据。

1. 用户提问后,先调用 get_db_list 查看可用数据库,再调用 get_table_schema 获取相关表字段;
2. 根据业务语义生成标准 Doris SQL,使用 exec_query 执行查询;
3. 返回结果做汇总分析,支持同比、环比、排序统计;
4. 禁止编造不存在的数据,无相关数据直接如实告知用户;
5. 时间类数据优先从汇总层查询,保证查询速度。

步骤 3:业务效果实测

用户提问 1:本周线上渠道销量 TOP10 商品,附带上周同比增长率

AI 自动执行链路:

  1. 调用 get_db_list 找到销售业务库;
  2. 调用 get_table_schema 读取订单明细、商品维度、渠道汇总三张表结构;
  3. 自动生成多表关联聚合 SQL;
  4. MCP 转发 SQL 至 Doris 执行,返回汇总结果;
  5. AI 对数据排序、计算同比,输出分析文字。
用户提问 2:昨天哪个渠道退款金额最高,退款订单有多少条

Doris 实时明细层数据秒级查询,运营人员自助完成复盘,无需人工写 SQL。

落地效果

  1. 数据需求交付从「提需求→排期→分析师写 SQL」的数天周期缩短到秒级;
  2. 一套 MCP 服务支撑全公司多个业务部门自助分析;

四、总结

Agent 时代的数据底座需要打通 AI 应用的标准化交互通道。Apache Doris MCP Server 针对「AI 与数仓对接复杂、多组件割裂、实时性不足」三个核心痛点:

  1. 标准化 MCP 协议,兼容全品类 AI Agent 和大模型平台;
  2. 复用 Doris 原生实时查询、元数据管理等能力,不需要额外搭建中间件;
  3. 开箱即用,快速落地 ChatBI、RAG 知识库、智能运维等场景。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据极客圈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 一、什么是 Doris MCP Server?
    • 1. MCP 协议简介
    • 2. Doris MCP Server 定位
      • 架构链路
    • 3. 内置工具集
      • (1)元数据查询
      • (2)SQL 执行与诊断
      • (3)监控观测
      • (4)数据分析
    • 4. 四大特点
  • 二、主流业务场景
  • 三、完整实战:Dify + Doris MCP 搭建企业 ChatBI 系统
    • 业务背景
    • 环境准备
    • 步骤 1:部署 Doris MCP Server
      • 1.1 安装
      • 1.2 启动服务
      • 1.3 验证服务
    • 步骤 2:Dify 平台接入 MCP
    • 步骤 3:业务效果实测
      • 用户提问 1:本周线上渠道销量 TOP10 商品,附带上周同比增长率
      • 用户提问 2:昨天哪个渠道退款金额最高,退款订单有多少条
    • 落地效果
  • 四、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档