多模态智能数据湖有什么产品优势?
修改于 2025-09-26 21:00:53
113多模态智能数据湖的产品优势如下:
批流一体表格式
- Apache Iceberg 兼容:基于 Apache Iceberg 无侵入式拓展,满足批流一体场景同时兼容 Iceberg 原生使用方式及社区丰富引擎生态。
- 近实时湖仓能力升级:相比 Apache Iceberg 中流式写入的更新数据没办法在下游进行流式消费,TCIceberg 在支持流式写入的同时,支持按照 CDC(Change Data Capture)格式读取流式增量数据,并提供可扩展的合并过程满足部分列更新、预聚合等场景。
- 性能增强:通过自动分桶机制提升了更新场景下的 merge-on-read 性能。
- 智能的数据优化:TCIceberg 支持对表上的写入及查询操作实时监控,根据监控信息自动按需调度优化资源,提升优化质量及效率。
统一数据目录
- 多模态数据目录:内置统一多模态数据目录服务,涵盖表(Table)、非结构化卷(Volume)、模型(Model)、视图(View)、函数(Function)等,为 Data+AI 数据资产提供全生命周期的统一数据目录管理。
- 外部资产接入:除内置数据目录外,可接入分布在其他系统、异构数据源的目录(如 MySQL、Hive、Doris 等),使用户可以在统一视图下能无缝访问和管理 TCLake 与外部系统数据资产,打破数据孤岛。
- 统一权限管理:在所有数据目录上抽象基于 RBAC 的统一权限模型,封装标准化接入层,构建覆盖数据全生命周期的权限管控体系。
开放引擎生态(逐步接入中)
- 腾讯云生态体系:与腾讯云 EMR、 DLC、THouse 等引擎生态体系集成,支持以上产品内置主流引擎开箱即用。
- 开源生态体系:支持 Spark 、Flink 等多种开源生态大数据计算引擎,Ray 、TensorFlow 等主流 AI 训练框架。
Serverless 免运维
- 全托管服务:全托管开箱即用数据目录及存储服务,用户无需维护底层复杂系统架构。
- 智能数据管理:自动触发小文件合并、过期快照清理、数据生命周期管理等任务,无需人工干预。