首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >多模态智能数据湖

多模态智能数据湖

修改于 2025-09-26 20:48:28
539
概述

多模态智能数据湖 TCLake 是腾讯云推出的开放、智能、融合的新一代 Data+AI 数据湖底座,提供覆盖结构化+非结构化数据的统一管理,内置多模态统一数据目录、批流一体表格式、智能数据管理等服务,上层无缝对接腾讯云及主流开源 Data+AI 生态引擎,助力企业高效构建 AI 时代统一、低成本的数据湖基础架构。

多模态智能数据湖有什么核心功能?

统一元数据

覆盖结构化数据、AI 领域的非结构化数据源与模型资产的多模态统一数据目录服务。

批流一体表格式

内置全托管存储的批流一体 TCIceberg 表格式,在满足流式湖仓场景拓展同时兼容 Apache Iceberg。

智能数据管理

自动优化 TCLake 底层数据,包括小文件合并、无效数据清理、数据组织优化、生命周期管理等。

开放生态对接

提供开放上层生态接入,包括腾讯云大数据 & AI 产品生态、Spark、Flink、TensorFlow 等开源生态。

多模态智能数据湖有什么产品优势?

批流一体表格式

  • Apache Iceberg 兼容:基于 Apache Iceberg 无侵入式拓展,满足批流一体场景同时兼容 Iceberg 原生使用方式及社区丰富引擎生态。
  • 近实时湖仓能力升级:相比 Apache Iceberg 中流式写入的更新数据没办法在下游进行流式消费,TCIceberg 在支持流式写入的同时,支持按照 CDC(Change Data Capture)格式读取流式增量数据,并提供可扩展的合并过程满足部分列更新、预聚合等场景。
  • 性能增强:通过自动分桶机制提升了更新场景下的 merge-on-read 性能。
  • 智能的数据优化:TCIceberg 支持对表上的写入及查询操作实时监控,根据监控信息自动按需调度优化资源,提升优化质量及效率。

统一数据目录

  • 多模态数据目录:内置统一多模态数据目录服务,涵盖表(Table)、非结构化卷(Volume)、模型(Model)、视图(View)、函数(Function)等,为 Data+AI 数据资产提供全生命周期的统一数据目录管理。
  • 外部资产接入:除内置数据目录外,可接入分布在其他系统、异构数据源的目录(如 MySQLHive、Doris 等),使用户可以在统一视图下能无缝访问和管理 TCLake 与外部系统数据资产,打破数据孤岛。
  • 统一权限管理:在所有数据目录上抽象基于 RBAC 的统一权限模型,封装标准化接入层,构建覆盖数据全生命周期的权限管控体系。

开放引擎生态(逐步接入中)

  • 腾讯云生态体系:与腾讯云 EMR、 DLC、THouse 等引擎生态体系集成,支持以上产品内置主流引擎开箱即用。
  • 开源生态体系:支持 Spark 、Flink 等多种开源生态大数据计算引擎,Ray 、TensorFlow 等主流 AI 训练框架。

Serverless 免运维

  • 全托管服务:全托管开箱即用数据目录及存储服务,用户无需维护底层复杂系统架构。
  • 智能数据管理:自动触发小文件合并、过期快照清理、数据生命周期管理等任务,无需人工干预。

多模态智能数据湖怎么收费的?

多模态智能数据湖 TCLake 主要计费内容包括:元数据管理费用、数据优化费用、托管存储费用等。邀测期间元数据、数据优化等服务暂不收费,当您使用的表或数据托管在 TCLake 中时,会收取托管数据存储费用,托管存储费用采用按量计费模式,费用由 存储容量费用 和 请求费用 组成。

  • 说明如下:

计费项

计费项说明

计费公式

存储容量费用

根据存储容量的大小进行计算,不同存储类型的单价不同

日存储容量费用 = 存储容量月单价 / 30 * 日存储容量日存储容量 = 当日“每5分钟存储容量”之和 / 288(采样点数)

请求费用

根据请求次数进行计算,不同存储类型的请求单价不同

请求费用 = 每 万次请求 单价 * 日累计请求次数 / 10000

  • 产品定价:

地域

存储容量费用(元/GB/月)

请求费用(元/万次)

北京、南京、上海、广州

0.118

0.01

说明:

存储服务产生账单您可前往费用中心通过“数据湖计算 > 数据湖存储”产品查看。

多模态智能数据湖怎么购买?

第一步:申请试用

填写邀测 申请表单 ,我们将尽快完成邀测资格的审核。邀测阶段面向受邀用户开放,邀测时间为2025年9月30日~2025年12月31日,邀测结束后,您可以继续使用服务。

第二步:业务开通

登录 TCLake 控制台,按照指引单击开通服务,服务开通不收取费用。

第三步:初始化设置

完成开通后,可按照控制台快速入门指引创建数据目录。

第四步:反馈与建议

多模态智能数据湖 TCLake 目前处于邀测阶段并在快速迭代中,过程中如有任何使用问题和建议,可 提交工单 联系我们。

多模态智能数据湖有什么应用场景?

构建 LakeHouse 湖仓一体

用户在 TCLake 基于同一份湖存储数据构建多计算引擎应用,如基于 Spark 的批处理、基于 Flink 实时链路、基于 TCHouse 的高性能分析、基于 SparkML的机器学习应用等,解决传统架构下离线、实时、交互分析多套数据体系割裂问题。同时通过统一元数据整合 LakeHouse 数据资产、提供智能数据优化、加速等服务,可大幅提升客户数据维护及使用效率。

多模态数据湖

将企业的结构化和非结构化数据导入数据湖中,并通过 TCLake 统一数据目录服务将企业其他分布在各异构系统的多模态数据,与 TCLake 自身已有的数据资产无缝整合并实现统一管理,为管理人员提供全局可视的资产管控界面,同时为上层应用提供标准化的全域数据接入、统一权限控制及全生命周期治理能力,彻底打破数据孤岛,减少数据移动,大幅提升数据管理及使用效率。

大数据与机器学习一体化

通过 TCLake 的多模态数据管理能力及开放引擎生态,可助力客户快速搭建大数据+机器学习一体化应用,上游大数据引擎如 Spark 预处理好的训练数据可直接注册回统一元数据,由下游 PyTorch、TensorFlow 等 Al 训练框架直接读取,完成训练后模型可注册回 TCLake 进行统一生命周期管理,大幅提升 Al 应用构建及管理效率。

相关文章
  • 腾讯云数据湖赋能AIGC多模态大模型
    2K
  • TBDS面向AI时代构建多模态数据湖解决方案
    398
  • 多模态数据湖仓:AI团队正在迁移的架构详解
    908
  • 多模态智能的发展
    360
  • 多模态数据管理挑战重重?腾讯云数据湖计算DLC以Serverless架构破局
    463
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券