数据接入是 DataBuddy 数据工程场景中的核心能力,也是用户使用 DataBuddy 的最高频场景之一。
过去,配置一个数据接入任务需要在多个页面之间切换操作——配置数据源连接、配置同步策略、配置调度策略、配置监控告警等,熟练工也需要二三十分钟才能完成。
用户只需用自然语言描述数据接入需求,DataBuddy 即可自动完成全部配置工作:
示例对话:
用户:"从 MySQL 数据源把订单表同步到数仓,按时间字段 created_at 做增量,T+1 增量同步。"
DataBuddy 自动完成:
• 测试 MySQL 数据源连接;
• 读取订单表结构,生成目标表结构(按 WeData 数仓规范);
• 配置增量同步策略(按 created_at 字段增量,每天凌晨 1 点执行);
• 配置调度策略(T+1 增量同步);
• 配置监控告警(任务失败自动告警);
• 创建数据接入任务,并返回任务 ID 和配置详情。
整个过程从过去的二三十分钟压缩为一次对话交互。
DataBuddy 支持从多种数据源同步数据,包括:
• 关系型数据库(MySQL、PostgreSQL、SQL Server、Oracle 等);
• NoSQL 数据库(MongoDB、Redis、HBase 等);
DataBuddy 会自动监控数据接入任务的运行状态——当任务运行异常时,会自动分析日志、定位根因、生成修复方案,并分级执行(低风险操作自动完成,高危操作需人工确认)。
同时,DataBuddy 会记录数据接入任务的运行历史、数据同步量、同步延迟等指标,并生成数据接入运维报告,帮助用户持续优化数据接入性能。