搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Apache Doris
湖仓分析｜浙江霖梓基于 Doris + Paimon 打造实时离线一体化湖仓架构
Doris + Paimon 的实时/离线一体化湖仓架构，实现查询提速 30 倍、资源成本节省 67% 等显著成效。，大数据业务系统的局限逐渐暴露：报表系统计算缓慢、运维成本持续攀升、组件间的高度耦合导致架构稳定性较差等，严重影响了大数据系统产出效率，因此浙江霖梓引入 Doris+Paimon 重新构建了实时/离线一体化湖仓架构基于 Apache Doris 的实时/离线一体化湖仓架构经过七个月的设计与实施，最终完成了基于 Apache Doris 离线 / 实时一体化湖仓统一架构。 #开启⾏存"store_row_column" = "true" 总结与规划截至目前，基于 Doris + Paimon 的实时/离线一体化湖仓架构已为反欺诈策略、用户⾏为分析、业务监控、 BI 应用等若干系统提供了服务打通存量数据湖与 Doris 数仓的对接，为日后 PB 级数据的分析做好充分准备。
1.1K20编辑于 2025-02-13
来自专栏腾讯云存储
直播预告| Lakehouse 湖仓一体化架构论坛
在大模型时代，企业将如何进行湖仓一体化架构选型？下一代Lakehouse架构方向又在哪里？未来面临着怎么样的挑战？让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit：OLAP 线上峰会中，「Lakehouse 湖仓一体化架构」论坛上看头部企业如何做！精彩内容，扫码报名，免费参会本次Lakehouse湖仓一体化架构论坛的出品人程力老师，腾讯云数据湖存储的负责人，他对数据湖仓存储架构有着深入的理解与丰富的实践经验。演讲议题：下一代湖仓加速存储 GooseFS 在实时 OLAP 搜索场景中的实践与优化演讲嘉宾：于飏腾讯云 COS 对象存储团队资深高级工程师个人介绍：硕士毕业于西安电子科技大学，一直专注云端对象存储相关技术的研发工作演讲摘要：腾讯云对象存储中心推出的 GooseFS 加速存储产品，从最初加速湖仓应用场景下的海量吞吐与数据本地化调度，已经扩展演进到了实时 OLAP 引擎场景。
50910编辑于 2024-06-16
来自专栏ApacheHudi
Flink + Hudi，构架仓湖一体化解决方案
此过程不用执行扫描整个源表的查询 Hudi的优势 •HDFS中的可伸缩性限制•Hadoop中数据的快速呈现•支持对于现有数据的更新和删除•快速的ETL和建模以上内容主要引用于：《Apache Hudi 详解》新架构与湖仓一体通过湖仓一体、流批一体，准实时场景下做到了：数据同源、同计算引擎、同存储、同计算口径。实时数仓的每一层结果数据会准实时的落一份到离线数仓，通过这种方式做到程序一次开发、指标口径统一，数据统一。本节内容，引用自：《37 手游基于 Flink CDC + Hudi 湖仓一体方案实践》最佳实践版本搭配版本选择，这个问题可能会成为困扰大家的第一个绊脚石，下面是hudi中文社区推荐的版本适配： Chan 的提点，可能是 checkpoint的问题，于是做了设置 set execution.checkpointing.interval=10sec; 终于正常了致此，Flink + Hudi 仓湖一体化方案的原型构建完成
2K10发布于 2021-10-11
来自专栏肉眼品世界
数字化转型中数据底座“湖仓一体化”
一数据是数字化转型的基础和引擎数据湖是支撑企业数字化转型的数据底座，是提供数据驱动、精准决策的全方位技术支撑。数据价值将经历数据统一化、数据资产化、数据业务化、数据生态化四个阶段。 2.数据湖数据湖（Data Lake）是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输。数据湖的本质是由“➊数据存储架构+➋数据处理工具”组成的解决方案。 3.湖仓一体湖仓一体架构最重要的一点，是实现“湖里”和“仓里”的数据/元数据能够无缝打通，并且“自由”流动。湖里的“新鲜”数据可以流到仓里，甚至可以直接被数仓使用，而仓里的“不新鲜”数据，也可以流到湖里，低成本长久保存，供未来的数据挖掘使用。 1+N数据湖体系：1个数据湖，N个租户、N个数据仓库、N个数据集市、N个数据创新实验室。
2.8K20编辑于 2022-06-15
来自专栏ApacheHudi
Apache Hudi在华米科技的应用-湖仓一体化改造
，故大量未变化的历史冷数据会被重复存储多份，带来存储浪费；为了解决上述问题，保证数仓的降本提效目标，我们决定引入数据湖来重构数仓架构，具体如下： •业务数据源实时接入Kafka，Flink接Kafka 构建ODS实时增量数据层，实时ODS增量层主要作用有两方面：•依赖ODS实时增量数据（保留原始格式，不做清洗转化）每日离线入湖来构建ODS层离线湖仓，ODS层数据后续作为业务数据的备份、满足DWD层全量数据重做需求 Hudi可以很好的在任务执行过程中进行小文件合并，大大降低了文件治理的复杂度，依据业务场景所需要的原子语义、小文件管理复杂度以及社区活跃度等方面综合考量，我们选择Hudi来进行湖仓一体化改造。 3. 鉴于目前业务实时需求并不是很高，故华米数仓在引入数据湖时暂采取Hudi + Spark离线更新模式来构建湖仓ODS原始层和DWD明细层，从测试对比和上线情况来看，收益总结如下： 4.1 成本方面引入Hudi 总结与展望从数据湖上线和测试过程来看，目前数据湖能解决我们的一些数仓痛点，但是依然存在一些问题。
1.2K10发布于 2021-10-21
来自专栏ClickHouse
湖仓一体
做一名主要从事OLAP内核研发，对现有湖仓理解做个总结；欢迎批评/指正/讨论 1 为什么湖仓一体这么热：湖、仓定义这里就不赘述了，大家可以去搜我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题，寻求一个适配公司、平台的数据架构，一站式解决，但是大家对湖、仓本质的理解可能都不太一样，那又怎么谈湖仓一体呢。我也一样，理解一定是片面的，我吸收的内容和我个人脑海呈现的画面也是不一样的，只能尽自己所能，表达清楚对湖仓一体的理解，和面对什么样的业务背景下，我们应该如何围绕我们的平台去做自己的湖仓一体。 Iceberg(Iceberg+hdfs/s3)就是湖，大家也可以去搜索下数据湖的定义离在线一体，很多是表现为产品本身的一体化：比如元数据一体化,比如各类自家商业化引擎+一堆External/Multi /Unity/Unified Catalog 引擎一体化：引擎本身跟多事执行模式：如BSP、MPP混合，或者叫智能引擎，目前从文章来看ByConity已经实现；存储一体化：所有数据统一存储和管理，具体存是否一致
1.2K21编辑于 2024-11-26
来自专栏超级架构师
【数据湖仓】数据湖和仓库：范式简介
博客系列数据湖和仓库第 1 部分：范式简介数据湖和仓库第 2 部分：Databricks 和雪花数据湖和仓库第 3 部分：Azure Synapse 观点两种范式：数据湖与数据仓库基于一些主要组件的选择，云分析解决方案可以分为两类：数据湖和数据仓库。为了补充工具集，在过去十年左右开发了数据湖类型的解决方案。根据 Wikipedia 中的一个非常广泛的定义，数据湖是一种可以以原始形式存储数据的解决方案。数据湖：去中心化带来的自由数据湖范式的核心原则是责任分散。借助大量工具，任何人都可以在访问管理的范围内使用任何数据层中的数据：青铜、白银和黄金。集中式数据湖元数据管理工具越来越多，但使用它们取决于开发过程。技术很少强制这样做。结论：数据湖和数据仓库在这篇文章中，我们讨论了数据仓库和基于数据湖的解决方案的基本方法或范式的差异。
1.2K10编辑于 2022-03-08
来自专栏about云
湖仓一体详解
问题导读 1.什么是数据仓库、数据集市和数据湖？ 2.湖仓一体化为什么诞生？ 3.湖仓一体化是什么？ 4.湖仓一体化的好处是什么？那么接下来我们就来了解一下湖仓一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据湖？由于这些原因，数据湖的许多功能尚未实现，并且在很多时候丧失了数据湖的优势。 2.湖仓一体化为什么诞生？是否能有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性，将二者有效结合起来为用户实现更低的总体拥有成本？那么湖仓一体化就是答案！ 3.湖仓一体化是什么？ 4.湖仓一体化的好处是什么？湖仓一体能发挥出数据湖的灵活性与生态丰富性，以及数据仓库的成长性与企业级能力。
5K21编辑于 2022-03-31
【重磅发布】AllData数据中台核心功能：湖仓一体化平台
「 AllData数据中台 - 主页」「湖仓一体化平台 - 功能描述」1、AllData数据同步平台基于开源项目kyuubi核心技术建设。 2、在数据同步与处理方面，湖仓一体化平台展现了其强大的实力。它能够实时捕获并同步各类数据源的变化，确保数据的及时性和准确性。 3、在生态集成方面，湖仓一体化平台与Hive、Trino、Presto等大数据主流计算引擎深度整合，为用户提供了统一的数据存储和访问接口。 5、kyuubi湖仓一体化平台以其强大的功能、高效的处理能力、良好的生态集成以及卓越的存储与查询性能，成为了适用于各种大数据场景的存储解决方案。「湖仓一体化平台 - 模块功能汇总」「湖仓一体化平台 - 功能点展示」「湖仓查询」统计概览「湖仓查询」管理中心-会话中心「湖仓查询」管理中心-操作中心「湖仓查询」管理中心-引擎中心
63310编辑于 2025-03-01
来自专栏腾讯大数据的专栏
直播｜分析型湖仓论坛
随着湖仓技术的持续演进，数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时，二者之间的边界也逐渐淡化，湖上建仓、仓中数据降冷到湖、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配，各大厂商也陆续提出了自己的湖仓融合方案通过本次分享，听众可以了解新一代湖仓湖仓融合架构、物化视图等方向的前沿技术。演讲题目：天穹OLAP：实时湖仓融合平台架构实践演讲提纲：本次分享将会介绍基于天穹 OLAP 平台的实时湖仓融合架构。主要内容包括： 1. 介绍数据湖与实时数仓之间的异同以及湖仓融合的意义、常见湖仓融合方案的优劣 2. 解析腾讯大数据是如何解决当前湖仓融合的痛点，以及如何将实时数仓演变成新的实时湖仓融合架构 3. 腾讯大数据后续如何更进一步升级湖仓融合架构听众收益： 1. 了解当前数据湖及实时数仓的优劣，并了解腾讯大数据是如何解决当前湖仓融合的痛点 2.
69220编辑于 2023-07-12
来自专栏超级架构师
【数据湖仓】数据湖和仓库：Databricks 和 Snowflake
我们比较了 Databricks 和 Snowflake，以评估基于数据湖和基于数据仓库的解决方案之间的差异。在这篇文章中，我们将介绍基于数据仓库和基于数据湖的云大数据解决方案之间的区别。根据上一篇给出的定义，我们可以粗略的说Databricks是一个基于数据湖的工具，而Snowflake是一个基于数据仓库的工具。现在让我们更深入地研究这些工具。 Delta 文件格式是一种将数据库优势带入数据湖世界的方法。除其他外，该格式提供数据模式版本控制和数据库类型 ACID 事务。根据数据湖范式，文件格式本身是开放的，任何人都可以免费使用。基于 Delta 格式和 Databricks 工具，该公司正在尝试为数据湖和数据仓库混合方法传播一种新颖的“Data Lakehouse”范式概念。这是 Snowflake 向数据湖范式方向扩展其解决方案的方式之一。如今，它提供了用于实时数据摄取的高效工具等。
3.3K10编辑于 2022-03-08
来自专栏大数据学习与分享
数据湖与湖仓一体架构实践
五、汽车之家湖仓一体架构实践案例分享以下文字来源DataFunTalk，介绍了如何基于Apache Iceberg构建湖仓一体架构，将数据可见性提升至分钟级；从多维分析的角度来探讨引入Apache Iceberg 02 基于 Iceberg 的湖仓一体架构实践湖仓一体的意义就是说我不需要看见湖和仓，数据有着打通的元数据的格式，它可以自由的流动，也可以对接上层多样化的计算生态。 ——贾扬清 1. 总结通过对湖仓一体、流批融合的探索，我们分别做了总结。湖仓一体 Iceberg 支持 Hive Metastore；总体使用上与 Hive 表类似：相同数据格式、相同的计算引擎。架构收益 - 准实时数仓上方也提到了，我们支持准实时的入仓和分析，相当于是为后续的准实时数仓建设提供了基础的架构验证。准实时数仓的优势是一次开发、口径统一、统一存储，是真正的批流一体。但是在架构层面上，这个意义还是很大的，后续我们能看到一些希望，可以把整个原来 “T + 1” 的数仓，做成准实时的数仓，提升数仓整体的数据时效性，然后更好地支持上下游的业务。
3.7K32编辑于 2022-12-12
来自专栏超级架构师
【数据湖仓】数据湖和仓库：Azure Synapse 视角
我们将讨论 Azure Synapse 在数据湖和数据仓库范式规模上的定位。在本文中，我们将讨论 Microsoft 的 Azure Synapse Analytics 框架。具体来说，我们关注如何在其中看到数据仓库和数据湖范式的区别。为了熟悉这个主题，我建议你先阅读本系列的前几篇文章。数据湖和仓库第 1 部分：范式简介数据湖和仓库第 2 部分：Databricks 和Showflake 数据湖和仓库第 3 部分：Azure Synapse 观点我们现在考虑一个更新颖的解决方案，该解决方案与该主题的角度略有不同当我们回到本系列第一篇文章中介绍的数据仓库和数据湖范式区别时，会出现一个有趣的细节。从费用的角度来看，这两种范式可以在 Synapse 环境组件中看到。除 Synapse 专用 SQL 池数据仓库外，所有处理组件均按数据湖范例的典型使用量付费。所有工具甚至都有自动关机功能。
1.6K20编辑于 2022-03-08
吴炳锡：AI 时代下的湖仓一体化平台建设的思考
随着企业数字化转型的深入推进，实时数据仓库与湖仓一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天，企业不仅需要处理海量的历史数据，更需要实时洞察数据变化，快速响应市场需求。在第16届中国数据库技术大会（DTCC 2025）的「实时数仓与湖仓一体应用实践（上）」专场中，Databend 联合创始人吴炳锡带来了主题为《AI 时代下的湖仓一体化平台建设的思考》的深度分享。本文基于演讲内容整理而成，不仅回顾了从传统数据库到现代湖仓一体化架构的技术演进历程，更重要的是提出了面向 AI 时代的数据平台建设新思路。湖和仓的数据同步/共享 Databend 通过存算分离架构实现了真正意义上的湖仓一体化数据同步与共享。存算分离湖仓建设成效 Databend 作为一家成立仅四年半的新兴公司，在湖仓建设方面已经取得了令人瞩目的成效。2023 年，一个重要客户的数据规模让团队深感震撼。
54011编辑于 2025-09-02
来自专栏Apache Doris
数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南（下篇）
导读：湖仓一体是将数据湖和数据仓库的优势相结合的数据管理系统。Apache Doris 结合自身特性，提出了【数据无界】和【湖仓无界】核心理念。在上一篇文章中，全面介绍了湖仓一体演进历程以及 Apache Doris 湖仓一体解决方案，具体查阅：（上篇）从 0 到 1 构建湖仓体系， Apache Doris 湖仓一体解决方案全面解读。本文将进一步深入，聚焦于湖仓分析加速、多源联邦分析、湖仓数据处理这三个典型场景，分享 Apache Doris 湖仓一体方案的最佳实践。湖仓分析加速场景在该场景中，以 Apache Doris 作为计算引擎，对湖仓中数据进行查询分析加速。01 缓存加速针对 Hive、Iceberg 等湖仓系统，用户可以配置本地磁盘缓存。、Kyuubi 技术栈快手：从 Clickhouse 到 Apache Doris，实现湖仓分离向湖仓一体架构升级网易游戏如何基于 Apache Doris 构建全新湖仓一体架构
1.4K10编辑于 2025-02-21
来自专栏最新最全的大数据技术体系
数据湖跟数仓的区别
1.2K20编辑于 2021-12-07
快手：从 Clickhouse 到 Apache Doris，实现湖仓分离向湖仓一体架构升级
原有湖仓分离架构，由离线数据湖和实时数仓组成，面临存储冗余、资源抢占、治理复杂、查询调优难等问题。湖仓数据无缝集成、自由流转：结合 Doris 异步物化视图能力和内置作业调度功能，用户可以便捷的基于 Doris 对湖仓数据进行分层加工处理，从而简化湖仓数据处理的复杂度。统一数据湖的构建和计算引擎： Apache Doris 支持主流湖仓的数据写入能力，用户可以基于 Doris 进行统一的数据写入、处理及分析，形成湖仓一体架构下的链路闭环。基于 Apache Doris 的湖仓一体架构快手基于 Apache Doris 升级为湖仓一体分析平台，新架构如图所示：从下至上，主要分为以下几个层级：数据加工层：数据源数据同步到数据湖仓（Hive/ 结束语引入 Apache Doris，使快手成功从湖仓分离架构升级到湖仓一体架构。
1.7K10编辑于 2024-09-27
数据湖 vs 数据仓库：大厂为何总爱“湖仓并用”？
数据团队常常陷入两难选择：用数据仓库做报表快，但放不进原始日志和图片；用数据湖存万物成本低，但查个基础指标却很慢。当95%的企业还在纠结“选湖还是选仓”，头部大厂早已走向第三条路：湖仓一体架构。四、湖仓一体架构的优势随着企业对数据实时性、多场景复用的要求提升，湖仓融合成为必然趋势。新一代Lakehouse 架构如何突破传统局限？（3）>50人的中大型团队：直接规划湖仓一体架构，选择Snowflake Data Cloud、Databricks Lakehouse等云原生解决方案，降低技术栈复杂度。当企业纠结于“选湖还是选仓”时，需回归两个核心问题：1.业务需求维度：当前阶段需要支持固定报表还是探索性分析？是否存在AI/实时分析需求？湖与仓的界限正逐渐模糊，而能够根据业务动态选择技术组合的能力，才是企业的核心数据竞争力。
48810编辑于 2025-09-05
来自专栏DevOps
湖仓一体：基于Iceberg的湖仓一体架构在B站的实践
本文主要介绍为了应对以上挑战，我们在湖仓一体方向上的一些探索和实践。 Why?为什么需要湖仓一体在讨论这个问题前，我们可能首先要明确两个概念：什么是数据湖？什么是数据仓库？湖仓一体是近两年大数据一个非常热门的方向，如何在同一套技术架构上同时保持湖的灵活性和仓的高效性是其中的关键。在B站，基于我们之前的技术栈和实际的业务场景，我们选择了第二个方向，从数据湖架构向湖仓一体演进。 B站的湖仓一体实践对于B站的湖仓一体架构，我们想要解决的问题主要有两个：一是鉴于从Hive表出仓到外部系统（ClickHouse、HBase、ES等）带来的复杂性和存储开发等额外代价，尽量减少这种场景出仓的必要性我们基于Iceberg构建了我们的湖仓一体架构，在具体介绍B站的湖仓一体架构之前，我觉得有必要先讨论清楚两个问题，为什么Iceberg可以构建湖仓一体架构，以及我们为什么选择Iceberg？
2.4K21编辑于 2024-03-29
小红书湖仓架构的跃迁之路
Apache Impala Committer本文整理自小红书工程师在 StarRocks 年度峰会上的分享，介绍了小红书自助分析平台中，StarRocks 与 Iceberg 结合后，如何实现极速湖仓分析架构结合 Min-Max 索引特性，Iceberg 能在前端（FE）执行谓词下推，从而显著提升数据湖分析的性能。数据湖管理平台 (DLF)：通过分析审计日志，智能推断出自助分析数据集中的表的候选排序列。 Data Cache在数据湖分析场景中，StarRocks作为OLAP查询引擎，需要高效地扫描存储在对象存储（如OSS）中的 Parquet 文件。未来规划未来规划中，我们将探索结合 StarRocks 和 Paimon 的近实时湖仓分析架构，围绕公司业务需求，进一步优化近实时链路的处理能力，并针对具有主键（PK）需求的湖上分析场景，制定更高效的优化方案
72110编辑于 2025-03-03

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

湖仓分析｜浙江霖梓基于 Doris + Paimon 打造实时离线一体化湖仓架构

直播预告| Lakehouse 湖仓一体化架构论坛

Flink + Hudi，构架仓湖一体化解决方案

数字化转型中数据底座“湖仓一体化”

Apache Hudi在华米科技的应用-湖仓一体化改造

湖仓一体

【数据湖仓】数据湖和仓库：范式简介

湖仓一体详解

【重磅发布】AllData数据中台核心功能：湖仓一体化平台

直播｜分析型湖仓论坛

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

数据湖与湖仓一体架构实践

【数据湖仓】数据湖和仓库：Azure Synapse 视角

吴炳锡：AI 时代下的湖仓一体化平台建设的思考

数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南（下篇）

数据湖跟数仓的区别

快手：从 Clickhouse 到 Apache Doris，实现湖仓分离向湖仓一体架构升级

数据湖 vs 数据仓库：大厂为何总爱“湖仓并用”？

湖仓一体：基于Iceberg的湖仓一体架构在B站的实践

小红书湖仓架构的跃迁之路

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐