DataAgent:让数据系统拥有“理解力”看了这么多案例,我们再回过头来深度理解下,Data Agent 到底是什么? 与传统的数据中台或 RAG 技术不同,DataAgent 并非一个独立模块,而是一组协同工作的智能体体系。 DataAgent 让大模型理解数据,也让数据反过来理解业务。这种双向理解,使企业能够在数据流转的每一个环节中嵌入智能判断。 从使用场景看 DataAgent 的真实价值DataAgent 的潜力不仅在概念层面,更体现在实际落地场景。 DataAgent × SeaTunnel,让数据库变更实时“翻译”为洞察。这是数据集成的未来,也是智能基础设施的起点。
五、DataAgent(问数方向):SQL与AI的融合,企业数据入口的必争之地在数据驱动的时代,DataAgent(俗称“问数”)成为企业数字化转型的核心需求——让非技术人员通过自然语言对话,就能自动生成 从技术要求来看,DataAgent开发者需要掌握三大核心能力:一是传统数据库技术,SQL作为数据分析领域最通用、最稳定的语言,是基础中的基础;二是理论计算机算法,重点关注红黑树、HASH、RSA、SHA256 需要明确的是,SQL在传统数据分析行业的应用依然广泛,短期内无法被替代,而DataAgent则是让SQL“平民化”的关键,是企业数据入口的必争之地。 在腾讯云生态中,DataAgent相关技术已广泛落地:邯郸公积金通过腾讯云智能体平台,打造“数字柜台”,实现公积金业务“边聊边办”,通过自然语言交互自动生成SQL查询数据,办理时间从15分钟缩短至3分钟 对于开发者而言,DataAgent的入门门槛相对较低,适合计算机、数据库、数据分析等相关专业的从业者,重点关注Text2SQL算法优化、行业数据场景适配,结合腾讯云的数据库、智能体平台,可快速实现产品落地
图 4 结合 DataAgent 和 ControlAgent 的智能体工作流描述语言示例 复杂的现实任务中通常会涉及动态决策,单纯的 Python 式的逻辑控制规则以及 JSON 式的数据组织形式在面对灵活的需求时便无能为力 DataAgent:对于一个复杂的数据处理需求,工作流构建时会使用自然语言来描述处理的任务,然后在执行时会初始化一个 DataAgent,其会基于该自然语言描述自主处理并完成该数据处理任务。 2. 在 ProAgent 生成中,对于该任务,编写出了一个包含四个原子操作,一个 DataAgent 和一个 ControlAgent 的工作流。 当业务线为 2B 时,ProAgent 还引入了一个 DataAgent,其任务设置为 “Write a email of the business line of profit, together with 当遇到 2B 业务线数据时,DataAgent 可以撰写邮件发到相应经理的邮箱中。
AI for ScienceAI for Engineering (AI造房子,AI造汽车,AI参与工业企业工业品制造,AI做衣服鞋子,AI剪头发,AI炒菜,AI造船,AI for military)DataAgent 新材料(MIT有人做了),治疗罕见病(谢伟迪,张娅团队发了Nature))AI4Engineering (大有可为,AI可以用来操控工厂的机械设备,未来就是向量数据库和机械臂的指令来控制无人黑灯工厂了)DataAgent
由业务开发部门申请数据集 大数据组发布DataAgent 业务运维人员在业务机器部署DataAgent DataAgent采集数据并传输 目前大部分业务的日志数据采用这种方式采集。 DataAgent基于Flume实现,自开发Flume插件Tailsource支持多数据集、多文件实时tail,DataAgent具有以下特性: 支持数据集(category)配置,支持同时tail多个数据文件 DataAgent采集方式具体使用Flume,何种channel由数据类型、存储方式、数据量及业务场景综合确定。 数据传输层 业务运维人员部署DataAgent,或者其他收集方式后,数据集进入数据传输层。图4是数据传输层的整体架构。 ? 图6、图7分别是平台下各基础组件的监控布局及DataAgent端按业务分类监控。 ? ? 由于时间仓促,未能有更多的时间校对,文章中难免有纰漏,欢迎看官指正。
解决方案:执行生成的SQL,捕获错误信息将错误信息反馈给大模型,请求修正多轮迭代直到SQL执行成功效果:可执行SQL比例显著提升三、产业界实践字节DataAgent:预置宽表+NL2SQL互联网大厂代表方案技术思路 六层语义定义解决业务术语理解问题热数据卡片机制支持知识积累自动质检环节验证结果一致性准确率:多表查询≥95%,复杂计算≥95%代价:需要满血大模型算力、本地化部署、初始化知识录入、持续运营投入5.2技术路线对比对比维度纯NL2SQLOpenAICodex预置宽表+NL2SQL字节DataAgent 下一代技术路径:预置宽表+NL2SQL:字节DataAgent等采用,将多表转为单表,但人力成本高、覆盖有限本体神经网络+智能体:Palanter、UINO优锘等采用,多表查询准确率≥95%,但需要满血大模型算力和持续运营投入选型建议
据腾讯云大数据平台产品总经理徐晓敏介绍,新TBDS多模湖仓平台+WeData数智开发治理平台、以及DataAgent数据智能即服务共同构成核心架构,其中WeData全面融合DataOps与MLOps,提供一体化 CI/CD管线,显著提升数据开发到模型上线全链路效率;DataAgent通过AI连接业务意图、数据处理、运维诊断与最终决策,推动数据智能真正落地。
因此,我们期望的理想架构处理流程应如下图:具体流程:AI问数应用通过DataAgent调用NL2SQL这类外部工具,DataAgent采用PlanExecute或React模型规划执行路径,需要元数据以及依据业务自定义的语义模型 ——简单理解为表字段的描述,基于这些信息,DataAgent生成取数SQL,并发给ApacheDoris(即DataMind)加速执行,最终将数据返回到AI问数应用层。 5.2企业AI问数最终架构为解决上述问题,我们进行了如下优化,具体改进为:改进DataAgent查询的路由机制:用户只需书写库表名,系统将在优化器阶段自动判断路由、补全表名。 用户对于DataAgent的使用,只需理解数据湖中的Schema,无需关注表是存储在数据湖还是已加速至ApacheDoris。数据湖权限系统的打通:我们的数据湖拥有独立的权限管理系统,控制读写访问。
产品服务介绍:力维智联推出的Sentosa_DataAgent是一款基于大模型自然语言对话的智能数据分析平台。 力维智联的Sentosa_DataAgent 平台是在其机器学习平台的基础上发展而来的,具有独特的技术路线。 l 基于Spark 的架构使 Sentosa_DataAgent 能高效处理大规模数据,轻松应对企业级大数据分析需求。 l Sentosa_DataAgent 提供深度结果分析与建议,并支持生成详细分析报告,助力用户高效利用数据。 l 通过强化学习与在线更新,Sentosa_DataAgent 持续优化分析能力,让平台越用越聪明。力维智联通过强化学习技术持续提升Sentosa_DataAgent 的性能和智能水平。
例如,DataAgent写了一个SQL查询,执行报错,控制流可以流回DataAgent,带上错误信息,让其自我修正(Self-Correction)并重新执行,直到成功三、数据层技术路径:结构化与非结构化数据的融合税务稽核的基础是数据 ,确保路由决策的确定性Prompt策略:系统提示词中需包含路由表,例如:"如果用户询问具体数字,路由至DataAgent;如果询问法规解释,路由至LegalAgent"。 4.2.2数据提取节点(DataAgent/Text-to-SQL)输入:AuditState.request动作:LLM结合注入的Schema生成SQL自我修正循环(Self-CorrectionLoop state:AuditState):ifstate['retry_count']>3:return"HumanHandoff"#错误过多,转人工ifnotstate['raw_data']:return"DataAgent
三、国内主要厂商技术路线对比路线一:预置宽表+NL2SQL代表厂商:字节DataAgent、部分互联网大厂技术原理:预先构建宽表(将多表JOIN结果物化为单表),用户查询时通过NL2SQL转换为单表查询 四、技术路线对比总览对比维度预置宽表+NL2SQL字节DataAgent等ChatBI帆软等预制指标平台京东等本体+智能体Palantir、UINO等多表查询准确率依赖宽表设计≤70%依赖预制≥95%泛化能力宽表覆盖范围内预置报表仅预制指标任意问题人力投入高
DataAgent领域探索DataAgent是AI与数据处理融合的重要方向,本人结合实践与行业交流,形成以下洞察:6.1 个人技术实践与痛点发现- 技术演进:2012年毕业後使用Excel VBA,因数据量超限 DataAgent。AI未来发展前景广阔,期待AGI时代的到来。本报告感谢上海市科技金融协会组织的本次AI研修培训支持。
gettingStarted/what-is-apache-doris 了解完Doris x AI的关键特性后,接下来,直接来看看Doris与AI的5个应用场景 Doris与AI的5个应用场景 场景一:Doris × DataAgent 现在,有了Doris × DataAgent,一切都变得简单: "最近我们产品在社交媒体上的评价怎么样?" DataAgent接收到这个问题后:自动连接到Doris数据库,扫描相关Schema,生成SQL查询,执行查询并获取结果,然后调用LLM(如DeepSeek)生成自然语言回答: "过去一周,产品在社交媒体上获得了
自动生成、智能取数与运维诊断;全域兼容:适配湖仓一体架构,支持50+数据源类型,灵活部署于多云环境;标准统一:通过规范定义与自动代码生成,保障数据一致性与高质量;资产智能消费:发布业内首个数据资产智能体DataAgent Dataphin腾讯WeData华为DataArts奇点云DataSimbaInformatica方法论OneData+DAMA腾讯内部实践华为数据治理框架行业场景驱动DAMA+CMMIAI能力自然语言建模、DataAgent
DataAgent与消费者调研智能体:随着数据价值的凸显,能自动处理数据、分析用户需求的DataAgent成为企业刚需,开发者可以聚焦于数据处理、智能分析、用户画像等方向,提升自身在数据与AI融合领域的竞争力
目前,腾讯云已构建了新一代数据智能平台,涵盖统一存储、加速层、调度能力、计算层面以及DataAgent等,可实现数据处理可视化,改变人机交互模式。 应对行业竞争,打造差异化竞争优势 记者:行业上目前涌现了一些DataAgent类型产品,面对这个趋势,腾讯云有哪些思考和技术进展?
import net.ooder.annotation.Skill;@Agent(id = "data-agent", name = "Data Processing Agent")public class DataAgent
随着大模型技术的快速发展,数据智能体(DataAgent)产品如雨后春笋般涌现。然而,不同厂商采用的技术路线存在显著差异,直接影响产品的实用性、扩展性和维护成本。
用户访问子系统包含 DataAgent(含 API)、VolumeService、Allocator、StateService 和 StreamService 等模块,主要负责实现用户的访问通路。 所有请求,都通过调用 API 进入 DataAgent,然后由 DataAgent 调用后端各模块来实现。 DataAgent 与 DataNode 之间存在数据写入和读取磁盘池的关系。DataNode 与 TapeNode 之间存在数据转储到磁带库和从磁带库取回的关系。 第一步,业务通过 DataAgent 提交取回请求给 TapeService, TapeService 接受该任务之后,将任务进行持久化并提交给取回调度器;第二步,取回调度器根据上文介绍的策略重组当前未完成的任务
AI 原生场景 DataAgent DataAgent 的一个核心目标是通过自然语言的交互方式直接操作数据库,这里面涉及到一项重要能力:Text2SQL/NL2SQL。 Text2SQL 的难点在于准确率,业界有一些针对 Text2SQL 的 benchmark,包括 BIRD-bench,然而,不管是直接采用大模型,还是基于大模型做通用的 DataAgent,BIRD-bench 在数据库内核通过语义打标让大模型理解数据库的 schema,比如 Oracle 26ai 中的注释(Annotations)功能,又如 Snowflake 中的 Tags 功能;另外一种是向外看,在 DataAgent OceanBase 的 DataAgent 叫做 ODC DataPilot,通过引入指标层的 Text2Metrics 的做法,将准确率提升到 90% 以上。