第三章 趋势 未来几年,随着 EtLT 架构的普及,数据集成中将涌现出许多新场景,而数据虚拟化和 DataFabric 也将对未来的数据集成产生重大影响: 多云集成:这在全球范围内已经很普遍,大多数数据集成都具有跨云集成能力 DataFabric:目前,许多公司提出使用 DataFabric 元数据来管理所有数据,从而在查询期间无需 ETL/ELT,并直接访问底层数据。 数据虚拟化:基本思想类似于 DataFabric 的执行层。数据不需要移动;而是通过临时查询接口和计算引擎(例如 Presto、TrinoDB)直接查询,以转换存储在底层数据存储或数据引擎中的数据。 虽然数据集成最终会面临零 ETL、数据虚拟化和 DataFabric 的挑战,但在可见的未来,这些技术的性能、准确性和 ROI 一直未能达到数据集成的普及程度。 当然,我相信在未来 10 年,在 DataFabric x 大模型的情况下,虚拟化 + EtLT + 数据路由可能是数据集成的终极解决方案。 总之,只要数据量增长,数据之间的管道就永远存在。
DataFabric、DataOps、数据资产入表等多种解决方案兴起,从工具、流程、制度等维度去解决上述问题。 现有数据平台建设和运维团队受限于投入不能跟进每一个技术热点,从维护HDFS、Hive,到Atlas、Hudi、Presto等链路,需要熟悉运维管理十几个数据组件,又面临新技术比如联邦计算、数据湖、实时数仓,AI整合、DataFabric
这将彻底释放被“数据孤岛”禁锢的价值,使得跨系统的数据编织(DataFabric)成为可能。对于IT部门而言,集成的重心将从“技术对接”转移到“数据资产治理”。
2 其次,新场景带来了数据量、数据类型不断走向丰富,与数据处理、分析相关的技术也是层出不穷、应接不暇,从数据库、数据仓库,到数据中台、数据湖,甚至现在热门的湖仓一体、DataFabric,大部分企业并无掌控新技术的能力
第二,数据融合类技术崛起,包括DataMesh、DataFabric、DataOps等技术。它们将解决各类新兴数据引擎,以及数据湖和数据仓库之间差异化的矛盾。
产品服务介绍:围绕数据产品开发,爱数提供端到端的数据产品开发和数据交易基础设施,其相关产品包括:其一是一体化数据资产运营平台AnyFabric,基于DataFabric理念融合领域认知智能,以AI增强数据目录
大模型与AI融合到ETL过程中,AI集成为ETL的目标,也成为ETL中间的处理工具动态ETL出现,自动数据处理而无需传统ETL任务,从而实现DataFabric。
Notice:Human's prompt, Datasets by Gemini-2.5 #AI与数据平台 #DataFabric
虎兴龙强调,现在数据治理和架构的概念名词很多,Datamesh、Datafabric、Semantic layer、Data Virtualization等等,但其实核心逻辑都是通过开发、治理、建模等手段形成统一数据知识层
Forrester 认 为 DataFabric “是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景”, 其专注于对数据集成
这项技术的应用产生了“数据结构”(Datafabric)这一概念,形象地说,就像是“一种覆盖了巨大空间的织物,将多个数据位置、类型和来源连接起来,并提供数据访问方法”[16]。
WeLink、云原生平台)开发专用适配器渐进迁移:先接入非核心系统,验证稳定性后再接入核心系统激进型路径:统一数据中台+Agent原生接口方法论:不再为每个遗留系统单独开发适配器,而是构建统一数据中台(DataFabric