搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

构建AI时代统一数据底座：腾讯云向量湖加速多模态数据价值释放
实施向量化数据架构升级腾讯云提出向量湖解决方案，基于Iceberg和Lance双引擎架构实现多模态数据统一管理： Iceberg向量表集成LSH索引技术，支持实时增量构建索引，保证索引与数据可见性一致，延迟控制在毫秒级统一存储原始数据与向量表示，减少50%数据冗余存储某金融客户智能投研平台实践某头部证券公司在腾讯云向量湖基础上构建智能投研系统，整合研报、新闻、财报、音频会议记录等多源数据。通过统一向量化处理，实现跨模态语义检索，研究员查询效率提升3倍，模型训练数据准备时间从小时级降至分钟级，异常交易识别准确率提升40%。腾讯云向量湖支持原生多模态数据管理，提供统一元数据服务TBS，实现数据资产图谱构建，已在金融、电商、医疗等行业落地验证。数据来源：腾讯云数据湖技术专家徐潇在2023年云原生湖仓一体技术论坛分享内容技术验证：Apache Gravitino开源社区、Apache Iceberg社区技术方案
900编辑于 2026-04-27
来自专栏大数据-BigData
OPPO数据湖统一存储技术实践
目前业界的流行解决方案是数据湖，本文介绍的OPPO自研的数据湖存储CBFS在很大程度上可解决目前的痛点。，我们采用了iceberg；最上层可支持各种不同的计算引擎 OPPO数据湖架构特点 imagea3b844d6b45de917.png 早期大数据存储特点是流计算和批计算的存储放在不同的系统中，升级后的架构统一了的元数据管理，批、流计算一体化；同时提供统一的交互查询，接口更友好，秒级响应，并发度高，同时支持数据源Upsert变更操作；底层采用大规模低成本的对象存储作为统一的数据底座，支持多引擎数据共享，提升数据复用能力数据湖存储该子系统一个作用是作为持久化的多副本存储；另一个作用是数据缓存层，支持弹性副本，加速数据湖访问，后续再展开。 Reed-Solomon(RS)编码，我们的CBFS也采用了RS编码 imagef569addee75d631d.png 计算步骤：编码矩阵，上面n行是单位阵I，下方m行是编码矩阵；k+m个数据块组成的向量
93140编辑于 2022-04-23
来自专栏QQ大数据团队的专栏
腾讯云流式湖仓统一存储实践
腾讯云流式湖仓的主要优势包括：其一，统一存储，可简化离线与实时两套链路架构，打破传统Lambda架构数据存储壁垒，避免业务数据重复存储与不同引擎计算逻辑重复开发，通过统一数据存储与计算引擎可简化系统运维管理其五，成本低，通过实现存储与计算引擎统一，可避免数据冗余，降低企业成本。三、腾讯云流式湖仓实践腾讯流式湖仓方案广泛应用于多个行业与场景，如游戏、出行、教育、电商等。最后，统一存储简化了大数据管理，实现了成本控制，游戏行业需实时响应用户行为与离线分析历史数据，传统架构较为复杂，而流式湖仓实现了离线与实时链路统一，可避免重复存储与复杂系统维护。引入腾讯云流式湖仓方案后，数据采用Iceburg统一存储，既具备传统HBase按key查询的能力，又可以满足实时检索需求，也可实现离线分析能力，从而降低数据储存成本。同时，系统管理优化，统一存储与计算。四、腾讯云流式湖仓发展规划最后简单分享一下后续发展规划。腾讯云流式湖仓基于Iceberg生态系统，除了Iceberg之外，市面上还有其它一些优秀的湖格式。
66010编辑于 2024-12-09
来自专栏大数据智能实战
句子向量的统一评测工具（senteval）实验
facebook研究员提出了一个句子向量的统一评测工具：senteval（https://github.com/facebookresearch/SentEval)，该工具可以对当前多种主流的句子嵌入表示模型进行评测该程序提供了17种任务来进行句子向量表示模型的评测。 2、实验复现部分（1）下载数据进入data/downstream/文件夹，执行.
2K30发布于 2019-05-26
来自专栏腾讯大数据的专栏
基于 Iceberg 打造高效、统一的腾讯广告特征数据湖
在特征生产计算任务统一收敛到广告特征工程团队的大背景下，需要统一的特征存储层来收敛曾经分布散乱的离线特征数据，提供高效简洁的读写、变更、管理接口，基于一款容量伸缩良好、流批一体读写适配、Schema evolution 三、特征入湖：以主键为基础，支持流式特征分钟级更新基于湖仓团队研发的高效主键表的能力，批式特征数据可以高效入湖。四、存储管理优化：多版本、细粒度的统一接口，自适应、低冗余的文件合并在数据管理和存储层面，我们根据线上业务的主要使用方式进行接口收敛，利用 Iceberg 灵活的元信息机制，实现了多版本、可回溯、可回滚的读写接口 4.1 透明且统一的多版本特征读写 4.1.1 业务背景及接口方案广告特征数据除正常生产发布的例行周期外，同时存在质检、修正、回滚等非顺序、非例行的数据读取和写入操作，批量重跑一批历史数据也十分常见。通过规范统一特征离线存储表的分区，很多计算逻辑下可以利用 SPJ 的特性来加速任务的执行效率，在 Spark SQL 适配自定义的 Marvel Bucket Transform 后，Spark Join
1.6K10编辑于 2025-02-05
来自专栏超级架构师
【数据湖】塑造湖：数据湖框架
在这篇博客中，我将带您了解使用数据湖和大数据的风险和挑战。然后，我将带您了解我们为帮助最好地管理这些风险和挑战而创建的框架。准确性——当数据量不同、来源和结构不同以及它们到达湖的速度不同时，我们如何保持准确性和准确性？同时管理所有四个是挑战的开始。很容易将数据湖视为任何事物的倾倒场。框架我们把湖分成不同的部分。关键是湖中包含各种不同的数据——一些已经过清理并可供业务用户使用，一些是无法辨认的原始数据，需要在使用之前进行仔细分析。文件夹结构本身可以任意详细，我们自己遵循一个特定的结构：原始数据区域是进入湖的任何文件的着陆点，每个数据源都有子文件夹。我们创建的框架或我们赋予它的过程没有什么复杂的，但是让每个人都了解它的意图和数据湖的一般用途是非常重要的。
1.4K20编辑于 2022-03-08
来自专栏Apache Doris
Apache Doris 在小米统一 OLAP 和湖仓一体的实践
、Paimon等完成了从外仓到湖仓一体架构的关键升级。同时，Doris原生支持湖仓查询能力，在存算分离模式下，能够直接访问外部数据湖，有效打通数据孤岛。这一特性不仅显著简化了传统数据链路，也减少了因多层复制带来的数据冗余，真正推动湖仓一体架构的落地实践。基于此，数据开发平台的整体架构发生变化：Doris不再局限于传统“外仓”的角色，而是向上演进为统一的查询引擎层，与底层Iceberg、Paimon等湖仓格式解耦，直接进行联邦查询，同时利用自身的数据缓存内部数据查询场景：Doris对比Trino数据湖查询效率高3～5倍02统一查询网关统一认证鉴权：在连接层，将不同引擎的权限和认证体系统一提升到网关层，用户通过网关统一查询，无需担心引擎权限问题。围绕湖仓一体能力进行深度优化：重点提升湖仓支持的完整性与稳定性，推动Doris存算分离架构的大规模落地，同时完善增量计算能力的覆盖范围，以满足复杂场景下的实时数据处理需求。
44310编辑于 2025-12-02
腾讯云云原生湖仓一体演进：构建AI时代向量数据底座
构建统一向量湖扩展Lakehouse架构腾讯云通过云原生湖仓一体演进，以向量数据为桥梁连接数据与AI，方案含四大技术模块： Iceberg向量表与LSH索引原理：通过局部敏感哈希（LSH）将相似向量映射至相同统一向量湖扩展Lakehouse 架构：数据接入（Kafka、业务库、日志等）→加工/特征工程（Spark/Flink）→Vector Lake（统一存储原始数据与向量表示，含BM25+Embedding 混合检索、知识图谱增强检索）→向量服务（RAGs）（来源：“统一的向量湖：扩展 Lakehouse 架构”图表）。腾讯云向量湖技术领先性解析专家与社区背书：方案由徐潇（腾讯云数据湖技术专家、Apache Gravitino PMC）主导，依托Apache Gravitino构建统一元数据层（来源：文首作者介绍、“ 架构扩展性：统一向量湖支持跨引擎索引使用、多模态数据资产图谱构建，满足AI全生命周期（探索→分析→训练→评估）数据管理需求（来源：“统一的向量湖：扩展 Lakehouse 架构”图表）。
700编辑于 2026-04-27
数据湖技术深度分析：Serverless 计算与统一数据分析的融合
Serverless 计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力成为衡量数据湖解决方案的关键指标。统一元数据：通过华为云元数据服务实现数据的统一管理。统一权限：提供统一的权限管理，确保数据安全。湖仓一体：支持与华为云数据仓库的集成，实现湖仓一体架构。统一元数据：通过 Delta Lake 实现元数据的统一管理。统一权限：提供统一的权限管理，确保数据安全。湖仓一体：支持与 Databricks SQL 的集成，实现湖仓一体架构。总结 Serverless 计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力已成为数据湖技术的核心竞争点。 Serverless 计算简化了资源管理，多引擎查询提供了灵活的数据处理能力，统一元数据和统一权限加强了数据管理和安全，湖仓一体优化了数据存储和计算效率，数据目录提升了数据的可发现性，弹性伸缩适应了业务变化
34210编辑于 2025-07-28
数据湖技术深度分析：Serverless、多引擎查询与统一数据分析
本文将深入探讨数据湖技术的几个关键方面，包括Serverless计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速。统一元数据统一元数据管理可以简化数据治理并提高数据的可发现性。腾讯云数据湖计算DLC：提供了统一的元数据管理，支持跨不同数据源的数据发现和治理^1。统一权限统一权限管理有助于确保数据安全和合规性。腾讯云数据湖计算DLC：集成了腾讯云的IAM服务，提供了细粒度的访问控制^1。 Databricks Lakehouse：作为湖仓一体的代表，提供了统一的数据平台，支持结构化和非结构化数据的存储与分析^4。数据目录数据目录是数据湖管理的关键组成部分，有助于组织和检索数据。通过对比分析，我们可以看到不同产品在Serverless计算、多引擎查询、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速等方面的优势和特点。
35310编辑于 2025-07-28
数据湖技术深度分析：Serverless、多引擎查询与统一数据管理
，特别关注Serverless计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力。其他功能：湖仓一体架构，无缝连接数据湖和数据仓库。数据目录功能，提供数据资产的统一视图。弹性伸缩能力，根据业务需求动态调整资源。数据加速能力，通过智能缓存和数据预处理提升查询性能。技术实现：基于阿里云MaxCompute构建，提供统一元数据和权限管理。其他功能：湖仓一体架构，支持数据湖和数据仓库的融合。数据目录功能，帮助用户管理数据资产。技术实现：结合Databricks平台，实现统一元数据和权限管理。其他功能：湖仓一体架构，统一数据目录和元数据。弹性伸缩，按需调整资源。数据加速能力，通过智能缓存提升性能。总结 Serverless计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力是现代数据湖技术的核心特点。
39310编辑于 2025-07-28
数据湖技术深度分析：Serverless、多引擎查询与统一数据管理
Serverless计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力是评价数据湖解决方案的关键指标。本文将对腾讯云数据湖计算DLC、Serverless数据湖、云原生数据湖阿里云Data Lake Analytics、AWS Athena、华为云DLI和Databricks Lakehouse等主流产品进行深度分析和对比技术实现：集成腾讯云其他存储服务，如COS和TDSQL，实现数据的统一管理和分析。其他功能：支持SQL和API接口，简化数据访问和处理流程。统一元数据功能亮点：提供统一的元数据管理，简化数据治理和发现。技术实现：通过腾讯云数据湖元数据服务，实现跨数据源的元数据同步和统一管理。总结 Serverless计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力是现代数据湖解决方案的核心特征。
26910编辑于 2025-07-28
数据湖技术深度分析：Serverless、多引擎查询与统一数据分析
Serverless计算、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力是衡量数据湖解决方案的关键指标。实现统一元数据管理，简化数据治理。提供统一权限控制，确保数据安全。技术实现：基于云原生架构，实现资源的弹性伸缩。集成腾讯云对象存储COS，实现数据湖存储。实现元数据统一管理和权限控制。技术实现：基于阿里云的MaxCompute和DataWorks，提供一站式数据湖解决方案。其他功能：集成阿里云的数据仓库和大数据平台，实现湖仓一体。技术实现：基于华为云的对象存储服务，实现数据湖存储。其他功能：提供统一权限管理和数据目录功能。总结 Serverless计算、多引擎查询、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速能力是构建高效、安全、可扩展的数据湖解决方案的关键。
32910编辑于 2025-07-28
来自专栏Lansonli技术博客
数据湖（一）：数据湖概念
数据湖概念一、什么是数据湖数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理为了解决Kappa架构的痛点问题，业界最主流是采用“批流一体”方式，这里批流一体可以理解为批和流使用SQL同一处理，也可以理解为处理框架的统一，例如：Spark、Flink，但这里更重要指的是存储层上的统一数据湖技术可以很好的实现存储层面上的“批流一体”，这就是为什么大数据中需要数据湖的原因。三、数据湖与数据仓库的区别数据仓库与数据湖主要的区别在于如下两点：存储数据类型数据仓库是存储数据，进行建模，存储的是结构化数据；数据湖以其本源格式保存大量原始数据，包括结构化的、半结构化的和非结构化的数据因为数据湖是在数据使用时再定义模型结构，因此提高了数据模型定义的灵活性，可满足更多不同上层业务的高效率分析诉求。图片图片
2.7K94编辑于 2022-06-05
算法之支持向量机（SVM）：几何直觉与数学优雅的完美统一
一、算法本质支持向量机如同一位建筑大师：寻找最佳边界：在数据宇宙中构建最宽的安全道路（最大间隔超平面）关键点支撑：仅由边界上的关键数据点（支持向量）决定最终决策维度跃迁：通过核技巧将低维不可分问题映射到高维空间 1 : -1; } } 三、性能分析指标数值说明训练时间复杂度 O(n³) 取决于优化算法预测时间复杂度 O(d) d为特征维度空间复杂度 O(n×d) 存储支持向量和权重向量关键特性 System.out.println(svm.classify(new double[]{4,5})); // 输出1 高手进阶：实现核技巧（RBF/多项式核）开发增量学习版本优化存储结构（只保留支持向量分布式SVM：适应大数据场景（参数服务器架构）量子SVM：利用量子计算加速核矩阵计算深度SVM：结合神经网络的特征学习能力动态SVM：适应数据漂移的在线学习七、哲学启示支持向量机教会我们：关键少数原则：少数支持向量决定全局维度即自由：通过核变换突破维度限制平衡的艺术：间隔最大化与容错性的权衡当你能在推荐系统中用SVM进行亿级用户画像分类时，说明真正掌握了核方法的精髓
43810编辑于 2025-10-14
云原生湖仓一体演进：大模型多模态数据底座的重构路径
向量存储内存膨胀：传统数据湖的行组（Row Group）大小难以界定，过小导致元数据极度膨胀，过大则增加无效内存占用；在数千列的特征场景中，加载少量列亦需读取全部元数据，带来高延迟与高开销；独立建立与维护向量索引会耗尽计算集群的大量内存资源二、构建桥接数据与AI的统一向量湖针对上述架构冲突，通过扩展Lakehouse（湖仓一体）架构，将向量数据作为连接Data与AI的实体桥梁，构建统一向量湖（Vector Lake）。四、融合开源生态的多引擎业务实践在业界探索与落地中，统一向量湖与多模态元数据管理已在多个关键数据引擎中形成具体的业务应用路径： StarRocks 3.4 复杂查询融合：实现了统一系统同时支持数据分析和向量查询能力 Gravitino 统一元数据湖：构建了跨引擎的元数据湖（Metadata Lake），向下接管Hadoop Data Lake与Data Warehouse，向上为 Trino、Spark、Flink 面对AI时代多模态数据的多样性、PB级规模与高价值提取需求，腾讯云主导的统一向量湖架构，成功将数据与AI的连接路径标准化。
200编辑于 2026-04-27
来自专栏大数据进阶
数据湖
>支持数据高效的回溯能力 >支持数据的更新 >支持数据的批流读写 >支持实现分钟级到秒级的数据接入，实效性和Kappa 架构比略差下面我们看下网上对于主流数据湖技术的对比 ? 从上图中我们可以看到hudi和iceberg的功能较齐全，下面我们将从如下几方面来 1.元数据打通 2.flink读写数据湖 3.增量更新 4.对事务的支持 5.对于写入hdfs小文件合并的支持 6.湖中的数据和仓中的数据的联通测试 7.高效的回缩能力 8.支持Schema变更 9.支持批流读写 9.支持批流读写说完了技术体现，下面我们在简单说一下数据湖和数仓的理论定义数据湖其实数据湖就是一个集中存储数据库，用于存储所有结构化和非结构化数据数据湖可用其原生格式存储任何类型的数据，这是没有大小限制。数据湖的开发主要是为了处理大数据量，擅长处理非结构化数据。我们通常会将所有数据移动到数据湖中不进行转换。数据湖中的每个数据元素都会分配一个唯一的标识符，并对其进行标记，以后可通过查询找到该元素。这样做技术能够方便我们更好的储存数据。数据仓库数据仓库是位于多个数据库上的大容量存储库。
1.3K30发布于 2021-07-01
数据湖技术深度分析：Serverless、多引擎查询与统一数据分析的融合
本文将对数据湖、数据湖计算、Serverless 计算、大数据分析、数据湖管理以及统一数据分析进行深度分析和对比，特别关注Serverless、多引擎查询（Spark/Presto/Flink）、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速等关键特性。统一元数据统一元数据管理是数据湖的关键特性，它允许跨不同数据源的数据发现和理解。腾讯云数据湖计算DLC^1 提供了统一的元数据管理，简化了数据治理。 AWS Athena^2 通过Glue Catalog实现了元数据的统一管理。统一权限统一权限管理确保了数据湖中数据的安全性和合规性。结论通过对比分析，我们可以看到不同数据湖产品在Serverless计算、多引擎查询、统一元数据、统一权限、湖仓一体、数据目录、弹性伸缩和数据加速等方面各有优势。
34310编辑于 2025-07-28
来自专栏阿泽的学习笔记
万变不离其宗：用统一框架理解向量化召回
每个ID特征经过Embedding变成一个向量，以扩展其内涵。有的属于一个越大规模的多分类问题，优化softmax loss；有的基于Learning-To-Rank(LTR)，优化的是hinge loss或BPR loss 但是，如果我告诉你，以上这些召回算法，其实都可以被一个统一的算法框架所囊括 NFEP：理解向量化召回的统一框架向量化召回简介 NFEP框架关注的是“向量化召回”算法，也就是将召回建模成在向量空间内的近邻搜索问题。假设向量化召回，是拿X概念下的某个x，在向量空间中搜索Y概念下与之最近的y。 Embedding user embedding 用户看过的视频的embedding，pooling成一个向量用户搜索的关键词的embedding，pooling成一个向量以上两个向量，加上一些用户的基本属性
2.3K10发布于 2021-02-12
多模态数据湖仓：AI团队正在迁移的架构详解
当“数据湖仓”概念在2020年首次被提出时，其目标是在单一架构中统一数据仓库和数据湖：在廉价的对象存储上使用开放格式，内置ACID事务、模式强制、治理、BI支持和流处理。 Lance通过将嵌入向量、媒体引用（指向视频、音频或图像的指针）和结构化元数据统一在一个单一模式中来解决这个问题。它将搜索功能直接集成到存储层，以最大限度地减少数据传输。 “从BI到AI：使用Lance和Iceberg的现代湖仓栈”这种统一性也体现在存储栈中。同样，某中心和TwelveLabs利用该平台聚合来自不同模态的嵌入向量，创建了用于音频和视频内容的统一语义搜索引擎。这些系统与LanceDB方向一致：统一处理多模态内容、向量搜索和表格元数据。区别在于打包方式和侧重点——内部与开源、侧重于训练与服务于服务、或更倾向于编排与存储格式。
58910编辑于 2026-01-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

构建AI时代统一数据底座：腾讯云向量湖加速多模态数据价值释放

OPPO数据湖统一存储技术实践

腾讯云流式湖仓统一存储实践

句子向量的统一评测工具（senteval）实验

基于 Iceberg 打造高效、统一的腾讯广告特征数据湖

【数据湖】塑造湖：数据湖框架

Apache Doris 在小米统一 OLAP 和湖仓一体的实践

腾讯云云原生湖仓一体演进：构建AI时代向量数据底座

数据湖技术深度分析：Serverless 计算与统一数据分析的融合

数据湖技术深度分析：Serverless、多引擎查询与统一数据分析

数据湖技术深度分析：Serverless、多引擎查询与统一数据管理

数据湖技术深度分析：Serverless、多引擎查询与统一数据管理

数据湖技术深度分析：Serverless、多引擎查询与统一数据分析

数据湖（一）：数据湖概念

算法之支持向量机（SVM）：几何直觉与数学优雅的完美统一

云原生湖仓一体演进：大模型多模态数据底座的重构路径

数据湖

数据湖技术深度分析：Serverless、多引擎查询与统一数据分析的融合

万变不离其宗：用统一框架理解向量化召回

多模态数据湖仓：AI团队正在迁移的架构详解

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐