首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ApacheHudi

    Lakehouse架构指南

    数据湖是一种存储系统,具有底层数据湖文件格式[6]及其不同的数据湖表格式[7],可存储大量非结构化和半结构化数据,并按原样存储,但没有特定用途。 Lakehouse具有开放的数据管理架构,结合了数据湖的灵活性、成本效益和规模。 关于数据湖和Lakehouse请参阅有关现代数据基础架构[18]的新兴架构的完整架构。 在现代数据基础设施的新兴架构[19]中,Lakehouse架构越来越得到认可,并通过知名供应商(包括 Databricks、Google Cloud、Starburst 和 Dremio)和数据仓库先驱的采用情况验证了这点 统一的批处理和流式处理 统一的批处理和流式处理意味着 Lambda[32] 架构已过时。数据架构无需在批处理和流式中区分——它们都以相同的表结束,复杂性更低,速度更快。

    2.8K20编辑于 2022-12-09
  • 来自专栏麒思妙想

    What is a Lakehouse?

    解决数据湖限制的新系统开始出现,LakeHouse是一种结合了数据湖和数据仓库优势的新范式。 LakeHouse使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。 如果你现在需要重新设计数据仓库,鉴于现在存储(以对象存储的形式)廉价且高可靠,不妨可以使用LakeHouse。 What is a lakehouse? A lakehouse has the following key features: Transaction support: In an enterprise lakehouse many data

    99120发布于 2020-07-10
  • 来自专栏MySQL解决方案工程师

    MySQL HeatWave Lakehouse

    400 TB TPC-H基准测试证明MySQL HeatWave Lakehouse的查询性能比Snowflake快17倍,比Amazon Redshift快6倍。 端到端的扩展架构 MySQL HeatWave Lakehouse由一个大规模并行、高性能、内存查询处理引擎提供动力,优化后可以在节点集群中管理0.5PB级的数据大小。 因此,开发团队设计了HeatPump,这是一个大规模并行和可扩展的数据转换引擎,它充分利用集群中的所有节点和核心,提供一个真正向外扩展的湖仓架构。 HeatPump进程的向外扩展架构完美地划分、平衡任务,并利用每一个可用的CPU核心来获得外部文件的查询准备。HeatPump保证了集群中所有512个节点的同时使用,保证了强大的可扩展性。 400 TB TPC-H基准测试所示,MySQL HeatWave Lakehouse的查询性能为比Snowflake快17倍,比Amazon Redshift快6倍。

    1.4K20编辑于 2022-11-21
  • 来自专栏ApacheHudi

    揭秘Robinhood扩展和管理PB级规模Lakehouse架构

    实施 Robinhood 数据Lakehouse架构 Robinhood 数据 Lakehouse 生态系统支持超过一万个数据源,处理数 PB 数据集,并处理数据新鲜度模式(从近实时流到静态)、数据关键性 Robinhood 对所有各种用例的支持是建立在多层架构之上的,关键性最高的数据在第 0 层进行处理,后续层用于处理具有较低约束的数据,该 Lakehouse架构满足 Robinhood 的需求 每层中的数据处理都从数据源开始 在启动之前会完成一次性引导过程,确保在数据Lakehouse中定义初始目标表和架构 - 预期 Debezium 驱动的变更数据捕获 (CDC) 流。 对这种分层架构的支持是建立在 Apache Hudi 的核心功能和 Lakehouse 的其他 OSS 组件的混合之上的。 区域标签和相关元数据用于跟踪和传播有关整个Lakehouse不同区域的信息。Robinhood 的团队实施了中央元数据服务来支持这些区域。该服务建立在我们上面看到的新鲜度元数据相同的分层架构之上。

    57410编辑于 2024-04-26
  • 来自专栏深度学习与python

    专访李潇:数据智能平台,AI 时代的 Lakehouse 架构

    Lakehouse 平台的增长:Lakehouse 平台在数据仓储领域的使用正迅速增加。这反映了一个重要的趋势:组织正从传统的数据处理平台过渡到更加灵活、集成和效率更高的现代数据架构6) 无缝集成和扩展性:DLT 可以无缝集成到现有的数据生态系统中,并且具有很好的扩展性,支持从小型项目到大规模企业级应用的不同需求。 接下来是 Lakehouse 架构的推出阶段。这一阶段发生在 2020 年,打破了传统数据湖和数据仓库的界限。 Lakehouse 架构结合了数据湖和数据仓库的最佳元素,旨在降低成本并加速数据及人工智能项目的实施。 Lakehouse 架构建立在开源和开放标准之上,它通过消除历史上复杂化数据和 AI 的孤岛,简化了数据架构。值得注意的是,Apache Spark 只是 Lakehouse 架构中的可选模块之一。

    66310编辑于 2024-01-23
  • 来自专栏腾讯云存储

    直播预告| Lakehouse 湖仓一体化架构论坛

    在大模型时代,企业将如何进行湖仓一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战? 让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit:OLAP 线上峰会中,「Lakehouse 湖仓一体化架构」论坛上看头部企业如何做! 精彩内容,扫码报名,免费参会 本次Lakehouse湖仓一体化架构论坛的出品人程力老师,腾讯云数据湖存储的负责人,他对数据湖仓存储架构有着深入的理解与丰富的实践经验。 通过构建两级缓存架构与混合部署,让整个基于对象存储架构构建的查询性能与成本达到了较优的水平。 演讲提纲: 1.GooseFS 加速存储的核心架构 2.GooseFS 在腾讯内部实时 OLAP 搜索场景上的应用落地 3.GooseFS 在低延迟查询搜索请求上的架构演进与性能优化 4.总结 听众收益

    52810编辑于 2024-06-16
  • 来自专栏ApacheHudi

    印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

    我们两年前建立的可能无法支持我们今天管理的数据量,以解决我们决定改进数据平台架构的问题。 在我们之前的博客中,我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。 在这篇博客中,我们将讨论我们的新架构、涉及的组件和不同的策略,以拥有一个可扩展的数据平台。 2. 新架构 让我们首先看一下经过改进的新数据平台 2.0 的高级架构。 我们将架构分为 4 层: 1. 6. Athena Athena 是一个无服务器查询引擎,支持查询 S3 中的数据。用户利用 Athena 对位于数据湖中的数据集进行任何临时分析。 7. 6. 概括 在这篇博客中,我们查看了 Lake House 架构、构建平台 2.0 所涉及的所有组件,以及我们将 HUDI 用作数据湖的关键要点。

    2.4K20编辑于 2022-05-18
  • 来自专栏ApacheHudi

    LakeHouse 还是 Warehouse?(12)

    我将描述整体架构,如何思考问题,以及应该留在当前的架构中还是继续演进。 湖仓一体现已在技术上得到验证,包括以下公司用例: • Uber[2] • Robinhood[3] • Amazon[4] • Bytedance[5] • Walmart[6] • Disney[7] 现在LakeHouse中的世界更加结构化。 可以看到这些架构是如何相互接近的 从本质上讲,我们添加了一个事务管理层,一堆可以优化表的东西,类似于在仓库中找到的东西,比如对表进行聚簇,架构管理或统计信息,只是跟踪表的更具可扩展性的文件级统计信息,架构的其余部分几乎相同 从某种意义上说 LakeHouse 试图将两者融合在一起,但挑战也存在,这些进步是必要的。

    36710编辑于 2024-01-23
  • 来自专栏ApacheHudi

    基于 XTable 的 Dremio Lakehouse分析

    这创建了一个面向未来的架构,可以在需要时将新工具添加到技术栈中。 尽管有这些优点,但仍存在一个障碍:需要选择单一表格格式,这带来了重大挑战,因为每种格式都具有独特的功能和集成优势。 从 Apache XTable 开始,我们将首先将 GitHub[6] 存储库克隆到本地环境,并使用 Maven 编译必要的 jar。 如果我们现在检查 S3 位置路径,我们将看到 Iceberg 元数据文件,其中包括架构定义、提交历史记录、分区信息和列统计信息等详细信息。这是 S3 中的元数据文件夹。 www.dremio.com/blog/fewer-accidental-full-table-scans-brought-to-you-by-apache-icebergs-hidden-partitioning/) [6]

    87910编辑于 2024-06-08
  • 来自专栏ApacheHudi

    沃尔玛基于 Apache Hudi 构建 Lakehouse

    Ankur 和 Ayush 分享了他们从沃尔玛从数据湖到数据 Lakehouse 架构的战略转变的动机和经验,重点关注了 Apache Hudi Lakehouse 格式在实现这一变化中的重要性。 他们的一些主要收获是促使使用数据 Lakehouse 的挑战以及采用通用 Lakehouse 架构的好处。 这些好处结合了数据湖和数据仓库架构的优点,包括更快的行级操作、强大的模式实施和版本控制、更好的事务支持、有效的重复处理等等。 了解 Apache Hudi 随着这种自然的演变,Ankur 和 Ayush 旅程的下一步是为沃尔玛选择正确的数据Lakehouse架构。 在组织中启用 Apache Hudi 鉴于 Ankur 提供的 Apache Hudi 的工作直觉,Ayush 深入研究了 Apache Hudi 在组织中的实际启用,解决了他经常遇到的一个问题:“在我的数据湖架构中启用

    38910编辑于 2024-03-18
  • 来自专栏深度学习与python

    Lakehouse 如何重塑企业数据生态?

    完整直播回放可查看:https://www.infoq.cn/video/dZmjyL6SMA5bTeet3oLS 1 Lakehouse 架构的演进与关键趋势 伍翀: 过去一年 Lakehouse Lakehouse 架构,那么 Lakehouse 未来的关键发展趋势有哪些? 最后,我认为未来 Lakehouse 架构将会更加标准化。 这些因素都会影响企业在引入实时 Lakehouse 架构时的选型决策。 在确定选型之后,还需考虑如何让新的 Lakehouse 架构与现有的企业生态兼容。 因此,即使是 Lakehouse 架构,底层的 HDFS 并不会因为架构的变化而被完全替代。

    54510编辑于 2025-03-21
  • 来自专栏ApacheHudi

    加速 Lakehouse 表性能完整指南

    这就是 Lakehouse 的性能调整非常重要的地方。 Lakehouse 和开放表格式可以通过存储和计算的解耦来显着节省成本,并利用云超大规模存储服务实现近乎无限可扩展的存储。 如何优化 Data Lakehouse 性能 在本节中,我们将讨论 Lakehouse 表实现性能提升的常见方法,以及工程师如何利用这些技术来发挥我们的优势。 选择正确的表类型 创建 Lakehouse 表时,所有三种格式都提供两种表类型的某些版本:写入时复制 (COW)[6]或读取时合并 (MOR)[7] 。 索引 索引于 2020 年首次在 Apache Hudi 中添加到数据Lakehouse中。 .1721135242002.1736199423630.1736372767573.26&__hssc=17958374.1.1736372767573&__hsfp=130792607 [5] Apache XTable: https://xtable.apache.org/ [6]

    60000编辑于 2025-01-20
  • StarRocks 4.0:Real-Time Intelligence on Lakehouse

    StarRocks 3.x,升级存算分离架构,打造极速统一的湖仓分析能力,让数据分析更加的简单高效。 Agent 构建对数据平台提出新挑战;数据新鲜度要求更实时,查询延时与并发要求更高、数据处理效率与性价比要求更高,StarRocks 4.x 大版本将以 Real-Time Intelligence on Lakehouse 实时分析更高效StarRocks 3.x 在存算分离架构下,基于低成本的对象存储构建实时分析能力,相比存算一体的方案在存储成本上有了数量级的下降。 展望未来StarRocks 4.0 是 Real-Time Intelligent on Lakehouse 的新起点,StarRocks 4.x 系列版本将继续深化核心能力,打造 Agent-ready Fast Delivery:Lakehouse 架构是 AI 时代的数据基座,StarRocks 持续优化 Lakehouse 构建、治理与分析的能力,让数据到业务价值的交付变得更加高效。

    46310编辑于 2025-10-28
  • 来自专栏ApacheHudi

    Notion 基于Apache Hudi构建LakeHouse

    正是看到这种模式,促使 Notion 团队转向通用数据 Lakehouse 架构,该架构将更好地支持这种观察到的更新模式。 使用 Apache Hudi 解决挑战 该团队当时有多种架构选择 - Apache Hudi、Apache Iceberg 和 Delta Lake(Databricks 使用的内部 Delta Lakehouse 架构的开源版本)。 幸运的是随着 Hudi 的采用,这个数据规模变得易于管理,如图 6 所示。 还指出了 Hudi 的 Lakehouse 架构对其数据基础设施的好处,并指出 Hudi 为 Notion 节省了 125 万美元的成本并提高了性能。

    49810编辑于 2024-03-06
  • 软件架构 6 个方面

    所谓 “架构”,就是将软件的结构打好,然后在结构内按部就班的施工就好了。软件架构 6 个方面软件架构涉及六个维度,分别是 “稳定性”、“高性能”、“一致性”、“扩展性”、“观察性” 和 “安全性”。 没有最好的架构,只有合适的架构。合适的架构就是在对这些维度的平衡与取舍,以最大程度的支撑当前业务的运行。每个方面包含的内容稳定性,异步、调度、容错、隔离、熔断、限流、降级、故障恢复。 这也印证了 “架构是演化出来的,不是一蹴而就的。”可以说这个是 “架构” 的 “架构” 吧,以后只需要完善这个结构,往这个结构中不断添加工具、方法、经验就好了。

    26710编辑于 2024-03-25
  • 来自专栏大数据

    四大主流大数据架构详解与实战:MPP、Lambda、Kappa、Lakehouse,附存储选型指南

    MPP、Lambda、Kappa、Lakehouse四大架构,作为当前企业落地最广泛的方案,各有优劣、各有适配场景,而数据存储作为架构的“基石”,直接决定了架构落地的效率与性价比。 Lakehouse架构:数据湖+数据仓库融合,兼顾灵活性与高性能,适合海量多类型数据、需统一分析的场景,存储需支持ACID事务与多模式访问。核心提醒:没有“最优架构”,只有“最适配架构”。 2.4Lakehouse架构:数据湖与数据仓库的“融合王者”2.4.1核心原理Lakehouse(数据湖仓)架构是近年来最热门的大数据架构,核心思路是“融合数据湖的灵活性和数据仓库的高性能”——既保留数据湖 选型禁忌:中小型企业谨慎选型(Lakehouse架构复杂度高,运维成本高,需专业团队);数据量级较小(TB级以下),无需使用Lakehouse(性价比低,不如MPP或Lambda架构)。 想简化架构,选Kappa架构;大型企业、海量多类型数据、统一分析,选Lakehouse架构

    61821编辑于 2026-03-09
  • 来自专栏ApacheHudi

    基于 Apache Hudi + dbt 构建开放的Lakehouse

    本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse。我们很高兴地宣布,用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse。 什么是LakehouseLakehouse 是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素。 如何建造一个开放的Lakehouse? 这是构建Lakehouse的第一步,这里有很多选择可以将数据加载到我们的开放Lakehouse中。 物化是在 Lakehouse 中持久化 dbt 模型的策略。

    1.7K10编辑于 2022-12-09
  • Lakehouse x AI ,打造智能 BI 新体验

    Lakehouse 引擎底座,助力 BI 从“被动查询”迈向“主动决策”,开启数据“会说话”的新体验。 为什么 Lakehouse 正在成为智能分析的关键基石? Lakehouse 之所以成为智能分析的核心基座,关键在于其兼具统一存储、高性能查询与 AI 原生支持三大能力,真正打通了从数据准备到模型训练、推理的全流程。 在智能分析场景中,数据通常经历 ETL 与特征工程 → 模型训练(training)→ 推理(inference)→ 服务(serving)等环节,整个链路的读取与存储均依赖 Lakehouse 架构中具备 StarRocks 的 lakehouse 架构赋能实时智能分析StarRocks 构建了统一的 Lakehouse 架构,有效支撑从数据接入、处理、分析到 AI 推理的全链路能力,正成为智能分析的关键底座

    40910编辑于 2025-07-26
  • 来自专栏ApacheHudi

    使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用

    这种模块化方法创建了一个面向未来的架构,可以根据需要将新的计算引擎添加到堆栈中。 然而,在单节点架构中直接使用来自湖仓一体的数据的需求正变得至关重要,尤其是在进行临时分析和构建分析应用程序时,这加快了洞察过程的时间。对于此类用例并不总是需要经历设置基础架构的繁琐过程。 通过支持直接访问数据的开放数据架构可以避免这种情况。 我们在不久的将来正在研究的一些项目是: • 支持写入时复制表的增量查询[4] • 对 v1.0[5] 表格式的读取支持 • 读时合并表[6]的读取支持(快照) • Hudi 写支持[7] 引用链接 [ https://github.com/Eventual-Inc/Daft/issues/2152](https://github.com/Eventual-Inc/Daft/issues/2152) [6]

    1.1K10编辑于 2024-05-20
  • 来自专栏深度学习与python

    浅谈DeepSeek与Lakehouse的跨越式融合

    DeepSeek+RAG+Lakehouse,或是释放数据价值的新思路,前边谈过 DeepSeek 和 RAG,这里我们重点看一下 Lakehouse(一体化湖仓)。 湖仓架构的演进过程,受篇幅所限笔者这里不展开,只提一个关键点:在选择湖仓架构的时候,建议考察架构的存储是否是必须多套还是统一、元数据管理是多套还是统一。 接下来,笔者就结合具体的方案,跟大家聊聊如何基于 Lakehouse 架构来构建一个具备“可信数据”的企业 RAG 知识库。 这张图展示了 Lakehouse+RAG 构建的知识库架构,以及基于该知识库的 AI 产品功能,例如对话式数据分析工具 DataGPT。 而 DeepSeek 等私有部署 LLM + Lakehouse 架构的结合,未来或是一种全新的企业级 AI 范式。

    31500编辑于 2025-02-28
领券