首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ApacheHudi

    Lakehouse架构指南

    本文解释了数据湖的细节以及哪些技术可以构建一个Lakehouse,以避免创建没有结构和孤立文件的数据沼泽[4]。并讨论数据湖的分析能力以及如何构建,我们将介绍何时不使用数据湖以及有哪些替代方案。 Lakehouse具有开放的数据管理架构,结合了数据湖的灵活性、成本效益和规模。 关于数据湖和Lakehouse请参阅有关现代数据基础架构[18]的新兴架构的完整架构。 在现代数据基础设施的新兴架构[19]中,Lakehouse架构越来越得到认可,并通过知名供应商(包括 Databricks、Google Cloud、Starburst 和 Dremio)和数据仓库先驱的采用情况验证了这点 统一的批处理和流式处理 统一的批处理和流式处理意味着 Lambda[32] 架构已过时。数据架构无需在批处理和流式中区分——它们都以相同的表结束,复杂性更低,速度更快。

    2.8K20编辑于 2022-12-09
  • 来自专栏麒思妙想

    What is a Lakehouse?

    解决数据湖限制的新系统开始出现,LakeHouse是一种结合了数据湖和数据仓库优势的新范式。 LakeHouse使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。 如果你现在需要重新设计数据仓库,鉴于现在存储(以对象存储的形式)廉价且高可靠,不妨可以使用LakeHouse。 What is a lakehouse? A lakehouse has the following key features: Transaction support: In an enterprise lakehouse many data

    99120发布于 2020-07-10
  • 来自专栏MySQL解决方案工程师

    MySQL HeatWave Lakehouse

    MySQL HeatWave Lakehouse介绍 MySQL HeatWave Lakehouse除了具有MySQL HeatWave的优势,还提供了以下功能: 向外扩展的体系结构,可以快速摄取、管理和执行查询 端到端的扩展架构 MySQL HeatWave Lakehouse由一个大规模并行、高性能、内存查询处理引擎提供动力,优化后可以在节点集群中管理0.5PB级的数据大小。 因此,开发团队设计了HeatPump,这是一个大规模并行和可扩展的数据转换引擎,它充分利用集群中的所有节点和核心,提供一个真正向外扩展的湖仓架构4小时内向对象存储中加载400TB数据 通过一个完全透明的、公开的400 TB TPC-H*基准测试,MySQL HeatWave Lakehouse的加载性能比Amazon Redshift快8倍, HeatPump进程的向外扩展架构完美地划分、平衡任务,并利用每一个可用的CPU核心来获得外部文件的查询准备。HeatPump保证了集群中所有512个节点的同时使用,保证了强大的可扩展性。

    1.4K20编辑于 2022-11-21
  • 来自专栏ApacheHudi

    揭秘Robinhood扩展和管理PB级规模Lakehouse架构

    实施 Robinhood 数据Lakehouse架构 Robinhood 数据 Lakehouse 生态系统支持超过一万个数据源,处理数 PB 数据集,并处理数据新鲜度模式(从近实时流到静态)、数据关键性 Robinhood 对所有各种用例的支持是建立在多层架构之上的,关键性最高的数据在第 0 层进行处理,后续层用于处理具有较低约束的数据,该 Lakehouse架构满足 Robinhood 的需求 每层中的数据处理都从数据源开始 在启动之前会完成一次性引导过程,确保在数据Lakehouse中定义初始目标表和架构 - 预期 Debezium 驱动的变更数据捕获 (CDC) 流。 来自 Debezium 和 Apache Hudi 源)通过上述过程中步骤 2 和 3 中提到的基础设施(即 Debezium + Kafka + DeltaStreamer)进行循环,然后进入到步骤 4。 对这种分层架构的支持是建立在 Apache Hudi 的核心功能和 Lakehouse 的其他 OSS 组件的混合之上的。

    57410编辑于 2024-04-26
  • 来自专栏深度学习与python

    专访李潇:数据智能平台,AI 时代的 Lakehouse 架构

    Lakehouse 平台的增长:Lakehouse 平台在数据仓储领域的使用正迅速增加。这反映了一个重要的趋势:组织正从传统的数据处理平台过渡到更加灵活、集成和效率更高的现代数据架构4) 优化的资源管理和成本效率:DLT 通过自动调整资源使用(例如,在处理大量数据时自动扩展计算资源),提高了资源管理的效率,降低了操作成本。 接下来是 Lakehouse 架构的推出阶段。这一阶段发生在 2020 年,打破了传统数据湖和数据仓库的界限。 Lakehouse 架构结合了数据湖和数据仓库的最佳元素,旨在降低成本并加速数据及人工智能项目的实施。 Lakehouse 架构建立在开源和开放标准之上,它通过消除历史上复杂化数据和 AI 的孤岛,简化了数据架构。值得注意的是,Apache Spark 只是 Lakehouse 架构中的可选模块之一。

    66310编辑于 2024-01-23
  • 来自专栏腾讯云存储

    直播预告| Lakehouse 湖仓一体化架构论坛

    在大模型时代,企业将如何进行湖仓一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战? 让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit:OLAP 线上峰会中,「Lakehouse 湖仓一体化架构」论坛上看头部企业如何做! 精彩内容,扫码报名,免费参会 本次Lakehouse湖仓一体化架构论坛的出品人程力老师,腾讯云数据湖存储的负责人,他对数据湖仓存储架构有着深入的理解与丰富的实践经验。 通过构建两级缓存架构与混合部署,让整个基于对象存储架构构建的查询性能与成本达到了较优的水平。 演讲提纲: 1.GooseFS 加速存储的核心架构 2.GooseFS 在腾讯内部实时 OLAP 搜索场景上的应用落地 3.GooseFS 在低延迟查询搜索请求上的架构演进与性能优化 4.总结 听众收益

    52810编辑于 2024-06-16
  • 来自专栏ApacheHudi

    印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

    我们两年前建立的可能无法支持我们今天管理的数据量,以解决我们决定改进数据平台架构的问题。 在这篇博客中,我们将讨论我们的新架构、涉及的组件和不同的策略,以拥有一个可扩展的数据平台。 2. 新架构 让我们首先看一下经过改进的新数据平台 2.0 的高级架构。 我们将架构分为 4 层: 1. 4. 报告层 报告层主要从维度和事实表中聚合数据,并在这些数据库之上提供视图供下游用户使用。大多数仪表板将建立在这些报告表和物化视图之上,从而减少为重复性任务和报告用例连接不同表的计算成本。 4. S3 - 处理区 S3 处理层是 Halodoc 的数据湖。我们存储可变和不可变数据集。HUDI 被用于维护可变数据集。 4. 使用Apache Hudi HUDI 提供内置功能来支持开放数据湖。在我们的平台中加入或集成 HUDI 时,我们面临以下一些挑战并试图解决它们。

    2.4K20编辑于 2022-05-18
  • 来自专栏ApacheHudi

    LakeHouse 还是 Warehouse?(12)

    我将描述整体架构,如何思考问题,以及应该留在当前的架构中还是继续演进。 湖仓一体现已在技术上得到验证,包括以下公司用例: • Uber[2] • Robinhood[3] • Amazon[4] • Bytedance[5] • Walmart[6] • Disney[7] 现在LakeHouse中的世界更加结构化。 可以看到这些架构是如何相互接近的 从本质上讲,我们添加了一个事务管理层,一堆可以优化表的东西,类似于在仓库中找到的东西,比如对表进行聚簇,架构管理或统计信息,只是跟踪表的更具可扩展性的文件级统计信息,架构的其余部分几乎相同 从某种意义上说 LakeHouse 试图将两者融合在一起,但挑战也存在,这些进步是必要的。

    36710编辑于 2024-01-23
  • 来自专栏ApacheHudi

    基于 XTable 的 Dremio Lakehouse分析

    这创建了一个面向未来的架构,可以在需要时将新工具添加到技术栈中。 尽管有这些优点,但仍存在一个障碍:需要选择单一表格格式,这带来了重大挑战,因为每种格式都具有独特的功能和集成优势。 此外,Hudi 中强大的索引[3]和自动表管理功能[4]使团队 A 能够在其数据摄取过程中保持高水平的效率和性能,主要通过 Apache Spark 执行。 如果我们现在检查 S3 位置路径,我们将看到 Iceberg 元数据文件,其中包括架构定义、提交历史记录、分区信息和列统计信息等详细信息。这是 S3 中的元数据文件夹。 ) [3] 索引: [https://hudi.apache.org/docs/next/indexing](https://hudi.apache.org/docs/next/indexing) [4]

    87910编辑于 2024-06-08
  • 来自专栏ApacheHudi

    沃尔玛基于 Apache Hudi 构建 Lakehouse

    Ankur 和 Ayush 分享了他们从沃尔玛从数据湖到数据 Lakehouse 架构的战略转变的动机和经验,重点关注了 Apache Hudi Lakehouse 格式在实现这一变化中的重要性。 他们的一些主要收获是促使使用数据 Lakehouse 的挑战以及采用通用 Lakehouse 架构的好处。 这些好处结合了数据湖和数据仓库架构的优点,包括更快的行级操作、强大的模式实施和版本控制、更好的事务支持、有效的重复处理等等。 了解 Apache Hudi 随着这种自然的演变,Ankur 和 Ayush 旅程的下一步是为沃尔玛选择正确的数据Lakehouse架构Lakehouse 范式中为开发人员减轻的一项主要负担是读取和计算时间(图 4 中的步骤 2),因为在数据湖中,实现和管理全部由开发人员承担。

    38910编辑于 2024-03-18
  • 来自专栏ApacheHudi

    加速 Lakehouse 表性能完整指南

    Apache Hudi 背后的一些团队最终创建了Onehouse[4] ,我们正在其中构建一个通用且真正可互操作的数据 Lakehouse 平台。 这就是 Lakehouse 的性能调整非常重要的地方。 Lakehouse 和开放表格式可以通过存储和计算的解耦来显着节省成本,并利用云超大规模存储服务实现近乎无限可扩展的存储。 如何优化 Data Lakehouse 性能 在本节中,我们将讨论 Lakehouse 表实现性能提升的常见方法,以及工程师如何利用这些技术来发挥我们的优势。 索引 索引于 2020 年首次在 Apache Hudi 中添加到数据Lakehouse中。 hudi.apache.org/ [2] Apache Iceberg: https://iceberg.apache.org/ [3] Delta Lake: https://delta.io/ [4]

    60000编辑于 2025-01-20
  • 来自专栏深度学习与python

    Lakehouse 如何重塑企业数据生态?

    4 月 10-12 日将于北京举办的 Qcon 全球软件开发大会上,我们特别设置了【Lakehouse 架构演进】专题。 Lakehouse 架构,那么 Lakehouse 未来的关键发展趋势有哪些? 最后,我认为未来 Lakehouse 架构将会更加标准化。 这些因素都会影响企业在引入实时 Lakehouse 架构时的选型决策。 在确定选型之后,还需考虑如何让新的 Lakehouse 架构与现有的企业生态兼容。 因此,即使是 Lakehouse 架构,底层的 HDFS 并不会因为架构的变化而被完全替代。

    54410编辑于 2025-03-21
  • 来自专栏sktj

    Kubernetes(4:架构)

    Master 是cluster 的大脑: 运行 kube-apiserver kube-scheduler kube-controller-manager etcd pod restful api scheduler 调度器Scheduler负责决定将Pod放在哪个Node上运行。Scheduler在调度 时会充分考虑Cluster的拓扑结构,当前各个节点的负载,以及应用对高可用、性能、数据亲和性的需求。 Controller Manager负责管理Cluster各种资源,保证资源处于预期的状态。Controller Manager由多种controller组成,包括replicationcontroller、endpoints controller、namespace controller、serviceaccounts controller等。 etcd负责保存Kubernetes Cluster的配置信息和各种资源的状态信息。当数据发生变化时,etcd会快速地通知Kubernetes相关组件。 Pod要能够相互通信,Kubernetes Cluster必须部署Pod网络,flannel是其中一个可选方案。

    40820发布于 2019-09-24
  • StarRocks 4.0:Real-Time Intelligence on Lakehouse

    StarRocks 3.x,升级存算分离架构,打造极速统一的湖仓分析能力,让数据分析更加的简单高效。 Intelligence on Lakehouse 为核心,打造 Agent-ready 的数据分析引擎。 实时分析更高效StarRocks 3.x 在存算分离架构下,基于低成本的对象存储构建实时分析能力,相比存算一体的方案在存储成本上有了数量级的下降。 展望未来StarRocks 4.0 是 Real-Time Intelligent on Lakehouse 的新起点,StarRocks 4.x 系列版本将继续深化核心能力,打造 Agent-ready Fast Delivery:Lakehouse 架构是 AI 时代的数据基座,StarRocks 持续优化 Lakehouse 构建、治理与分析的能力,让数据到业务价值的交付变得更加高效。

    46310编辑于 2025-10-28
  • 来自专栏ApacheHudi

    Notion 基于Apache Hudi构建LakeHouse

    因此,与通常的情况一样,与表的大小相比,总更新插入量实际上相当小,如图 4 所示。 正是看到这种模式,促使 Notion 团队转向通用数据 Lakehouse 架构,该架构将更好地支持这种观察到的更新模式。 使用 Apache Hudi 解决挑战 该团队当时有多种架构选择 - Apache Hudi、Apache Iceberg 和 Delta Lake(Databricks 使用的内部 Delta Lakehouse 还指出了 Hudi 的 Lakehouse 架构对其数据基础设施的好处,并指出 Hudi 为 Notion 节省了 125 万美元的成本并提高了性能。 feature=shared](https://youtu.be/dZbXC4mlNck?feature=shared)

    49810编辑于 2024-03-06
  • 来自专栏大数据

    四大主流大数据架构详解与实战:MPP、Lambda、Kappa、Lakehouse,附存储选型指南

    MPP、Lambda、Kappa、Lakehouse四大架构,作为当前企业落地最广泛的方案,各有优劣、各有适配场景,而数据存储作为架构的“基石”,直接决定了架构落地的效率与性价比。 Lakehouse架构:数据湖+数据仓库融合,兼顾灵活性与高性能,适合海量多类型数据、需统一分析的场景,存储需支持ACID事务与多模式访问。核心提醒:没有“最优架构”,只有“最适配架构”。 2.4Lakehouse架构:数据湖与数据仓库的“融合王者”2.4.1核心原理Lakehouse(数据湖仓)架构是近年来最热门的大数据架构,核心思路是“融合数据湖的灵活性和数据仓库的高性能”——既保留数据湖 选型禁忌:中小型企业谨慎选型(Lakehouse架构复杂度高,运维成本高,需专业团队);数据量级较小(TB级以下),无需使用Lakehouse(性价比低,不如MPP或Lambda架构)。 想简化架构,选Kappa架构;大型企业、海量多类型数据、统一分析,选Lakehouse架构

    61821编辑于 2026-03-09
  • 来自专栏ApacheHudi

    基于 Apache Hudi + dbt 构建开放的Lakehouse

    本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse。我们很高兴地宣布,用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse。 什么是LakehouseLakehouse 是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素。 如何建造一个开放的Lakehouse? 这是构建Lakehouse的第一步,这里有很多选择可以将数据加载到我们的开放Lakehouse中。 第 4 步:如何在编写数据集时使用 upsert 功能?

    1.7K10编辑于 2022-12-09
  • Lakehouse x AI ,打造智能 BI 新体验

    Lakehouse 引擎底座,助力 BI 从“被动查询”迈向“主动决策”,开启数据“会说话”的新体验。 为什么 Lakehouse 正在成为智能分析的关键基石? 在智能分析场景中,数据通常经历 ETL 与特征工程 → 模型训练(training)→ 推理(inference)→ 服务(serving)等环节,整个链路的读取与存储均依赖 Lakehouse 架构中具备 StarRocks 的 lakehouse 架构赋能实时智能分析StarRocks 构建了统一的 Lakehouse 架构,有效支撑从数据接入、处理、分析到 AI 推理的全链路能力,正成为智能分析的关键底座 业务赋能:直面分析,业务人员按需加载在 ELT 架构下,研发专注数据导入湖仓,业务人员可通过元数据平台按需获取数据,自主完成报表构建与分析探索,显著降低跨团队沟通与交付成本。4.

    40910编辑于 2025-07-26
  • 来自专栏ApacheHudi

    使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用

    开放湖仓一体平台 随着越来越多的组织过渡到使用开放表格式在数据湖上进行事务,湖仓一体架构越来越受欢迎。 这种模块化方法创建了一个面向未来的架构,可以根据需要将新的计算引擎添加到堆栈中。 然而,在单节点架构中直接使用来自湖仓一体的数据的需求正变得至关重要,尤其是在进行临时分析和构建分析应用程序时,这加快了洞察过程的时间。对于此类用例并不总是需要经历设置基础架构的繁琐过程。 在开始编写代码之前概述一个简约的湖仓一体架构,作为仪表板的基础。这也将介绍我们在本练习中使用的工具。这里使用的所有工具都是开源的。 通过支持直接访问数据的开放数据架构可以避免这种情况。

    1.1K10编辑于 2024-05-20
  • 来自专栏深度学习与python

    浅谈DeepSeek与Lakehouse的跨越式融合

    湖仓架构的演进过程,受篇幅所限笔者这里不展开,只提一个关键点:在选择湖仓架构的时候,建议考察架构的存储是否是必须多套还是统一、元数据管理是多套还是统一。 4 让湖仓一体 Ready for RAG,建立具备“可信数据”的企业 RAG 知识库 前面说了那么多,可能有些同学还是觉得有点抽象。 接下来,笔者就结合具体的方案,跟大家聊聊如何基于 Lakehouse 架构来构建一个具备“可信数据”的企业 RAG 知识库。 这张图展示了 Lakehouse+RAG 构建的知识库架构,以及基于该知识库的 AI 产品功能,例如对话式数据分析工具 DataGPT。 而 DeepSeek 等私有部署 LLM + Lakehouse 架构的结合,未来或是一种全新的企业级 AI 范式。

    31500编辑于 2025-02-28
领券