首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ApacheHudi

    Lakehouse架构指南

    不了解 Lakehouse[2] 和 数据仓库[3] 之间的区别?或者只是想管理数百到数千个文件并拥有更多类似数据库的功能但不知道如何操作? Lakehouse具有开放的数据管理架构,结合了数据湖的灵活性、成本效益和规模。 关于数据湖和Lakehouse请参阅有关现代数据基础架构[18]的新兴架构的完整架构。 在现代数据基础设施的新兴架构[19]中,Lakehouse架构越来越得到认可,并通过知名供应商(包括 Databricks、Google Cloud、Starburst 和 Dremio)和数据仓库先驱的采用情况验证了这点 统一的批处理和流式处理 统一的批处理和流式处理意味着 Lambda[32] 架构已过时。数据架构无需在批处理和流式中区分——它们都以相同的表结束,复杂性更低,速度更快。

    2.8K20编辑于 2022-12-09
  • 来自专栏麒思妙想

    What is a Lakehouse?

    解决数据湖限制的新系统开始出现,LakeHouse是一种结合了数据湖和数据仓库优势的新范式。 LakeHouse使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。 如果你现在需要重新设计数据仓库,鉴于现在存储(以对象存储的形式)廉价且高可靠,不妨可以使用LakeHouse。 What is a lakehouse? A lakehouse has the following key features: Transaction support: In an enterprise lakehouse many data

    99120发布于 2020-07-10
  • 来自专栏MySQL解决方案工程师

    MySQL HeatWave Lakehouse

    MySQL HeatWave Lakehouse介绍 MySQL HeatWave Lakehouse除了具有MySQL HeatWave的优势,还提供了以下功能: 向外扩展的体系结构,可以快速摄取、管理和执行查询 MySQL HeatWave Lakehouse自动将所有数据源转换为单一优化的内部格式。 端到端的扩展架构 MySQL HeatWave Lakehouse由一个大规模并行、高性能、内存查询处理引擎提供动力,优化后可以在节点集群中管理0.5PB级的数据大小。 因此,开发团队设计了HeatPump,这是一个大规模并行和可扩展的数据转换引擎,它充分利用集群中的所有节点和核心,提供一个真正向外扩展的湖仓架构。 HeatPump进程的向外扩展架构完美地划分、平衡任务,并利用每一个可用的CPU核心来获得外部文件的查询准备。HeatPump保证了集群中所有512个节点的同时使用,保证了强大的可扩展性。

    1.4K20编辑于 2022-11-21
  • 来自专栏ApacheHudi

    揭秘Robinhood扩展和管理PB级规模Lakehouse架构

    实施 Robinhood 数据Lakehouse架构 Robinhood 数据 Lakehouse 生态系统支持超过一万个数据源,处理数 PB 数据集,并处理数据新鲜度模式(从近实时流到静态)、数据关键性 Robinhood 对所有各种用例的支持是建立在多层架构之上的,关键性最高的数据在第 0 层进行处理,后续层用于处理具有较低约束的数据,该 Lakehouse架构满足 Robinhood 的需求 每层中的数据处理都从数据源开始 在启动之前会完成一次性引导过程,确保在数据Lakehouse中定义初始目标表和架构 - 预期 Debezium 驱动的变更数据捕获 (CDC) 流。 • 处理后,增量数据更新和检查点将写入数据湖或对象存储(例如 Amazon S3)。 大规模关键元数据的新鲜度跟踪 以下架构维护了关键的元数据属性(新鲜度)。 对这种分层架构的支持是建立在 Apache Hudi 的核心功能和 Lakehouse 的其他 OSS 组件的混合之上的。

    57410编辑于 2024-04-26
  • 来自专栏深度学习与python

    专访李潇:数据智能平台,AI 时代的 Lakehouse 架构

    Lakehouse 平台的增长:Lakehouse 平台在数据仓储领域的使用正迅速增加。这反映了一个重要的趋势:组织正从传统的数据处理平台过渡到更加灵活、集成和效率更高的现代数据架构3) 错误处理和数据质量保证:DLT 内置了错误处理和数据质量检查机制。这意味着数据工程师可以花费更少的时间在解决数据质量问题上,而更多地专注于数据分析和提取洞察。 接下来是 Lakehouse 架构的推出阶段。这一阶段发生在 2020 年,打破了传统数据湖和数据仓库的界限。 Lakehouse 架构结合了数据湖和数据仓库的最佳元素,旨在降低成本并加速数据及人工智能项目的实施。 Lakehouse 架构建立在开源和开放标准之上,它通过消除历史上复杂化数据和 AI 的孤岛,简化了数据架构。值得注意的是,Apache Spark 只是 Lakehouse 架构中的可选模块之一。

    66310编辑于 2024-01-23
  • 来自专栏ApacheHudi

    基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

    开放的Lakehouse 云计算发展引发了计算与存储分离,这利用了成本优势并能够灵活地存储来自多个来源的数据。所有这一切都催生了开放Lakehouse的新数据平台架构。 什么是Lakehouse 开放的Lakehouse 基于将仓库工作负载引入数据湖的概念。可以对不需要供应商锁定的技术和工具进行分析,包括许可、数据格式、接口和基础设施。 • 将计算带入数据(存储计算分离) • 治理/事务层的灵活性 • 存储结构化和半/非结构化数据的灵活性和低成本 • 每一层的灵活性——挑选最适合的工作负载/用例的技术 开放Lakehouse架构 现在让我们深入了解数据堆栈本身和不同的层并讨论每一层解决什么问题 Presto 专为具有内存执行的高性能交互式查询而构建,主要特征包括: • 从 1 到 1000 个 Worker 的高可扩展性 • 支持广泛的 SQL 用例的灵活性 • 高度可插拔的架构,通过安全、事件监听器等的自定义集成 ,以及 AWS S3 等对象存储的开放格式。

    2K20编辑于 2022-12-09
  • 来自专栏腾讯云存储

    直播预告| Lakehouse 湖仓一体化架构论坛

    在大模型时代,企业将如何进行湖仓一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战? 让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit:OLAP 线上峰会中,「Lakehouse 湖仓一体化架构」论坛上看头部企业如何做! 精彩内容,扫码报名,免费参会 本次Lakehouse湖仓一体化架构论坛的出品人程力老师,腾讯云数据湖存储的负责人,他对数据湖仓存储架构有着深入的理解与丰富的实践经验。 演讲提纲: 1.GooseFS 加速存储的核心架构 2.GooseFS 在腾讯内部实时 OLAP 搜索场景上的应用落地 3.GooseFS 在低延迟查询搜索请求上的架构演进与性能优化 4.总结 听众收益 : 1.OLAP 系统如何基于云端对象存储构建分级缓存加速 2.面向通用场景的大规模分布式缓存如何应对低延迟搜索查询请求 3.分布式缓存系统如何在资源和成本上的实践经验

    52810编辑于 2024-06-16
  • 来自专栏ApacheHudi

    印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

    我们两年前建立的可能无法支持我们今天管理的数据量,以解决我们决定改进数据平台架构的问题。 在我们之前的博客中,我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。 在这篇博客中,我们将讨论我们的新架构、涉及的组件和不同的策略,以拥有一个可扩展的数据平台。 2. 新架构 让我们首先看一下经过改进的新数据平台 2.0 的高级架构。 我们将架构分为 4 层: 1. S3 - 原始区域 DMS 捕获的所有 CDC 数据都存储在 S3 中适当分区的原始区域中。该层不执行数据清洗。只要源系统中发生插入或更新,数据就会附加到新文件中。 S3 - 处理区 S3 处理层是 Halodoc 的数据湖。我们存储可变和不可变数据集。HUDI 被用于维护可变数据集。

    2.4K20编辑于 2022-05-18
  • 来自专栏ApacheHudi

    LakeHouse 还是 Warehouse?(12)

    Onehouse 创始人/首席执行官 Vinoth Chandar 于 2022 年 3 月在奥斯汀数据委员会[1]发表了这一重要演讲。 我将描述整体架构,如何思考问题,以及应该留在当前的架构中还是继续演进。 湖仓一体现已在技术上得到验证,包括以下公司用例: • Uber[2] • Robinhood[3] • Amazon[4] • Bytedance[5] • Walmart[6] • Disney[7] 现在LakeHouse中的世界更加结构化。 从某种意义上说 LakeHouse 试图将两者融合在一起,但挑战也存在,这些进步是必要的。

    36710编辑于 2024-01-23
  • 来自专栏ApacheHudi

    基于 XTable 的 Dremio Lakehouse分析

    这创建了一个面向未来的架构,可以在需要时将新工具添加到技术栈中。 尽管有这些优点,但仍存在一个障碍:需要选择单一表格格式,这带来了重大挑战,因为每种格式都具有独特的功能和集成优势。 此转换过程非常高效,并利用相同的 S3 存储桶来存储目标表的已翻译元数据。 ", "true") \ .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \ .getOrCreate () print("Spark Running") s3_path = "s3a://diplakehouse/hudi_tables/" # Access SparkContext sc = spark.sparkContext 如果我们现在检查 S3 位置路径,我们将看到 Iceberg 元数据文件,其中包括架构定义、提交历史记录、分区信息和列统计信息等详细信息。这是 S3 中的元数据文件夹。

    87910编辑于 2024-06-08
  • 来自专栏ApacheHudi

    沃尔玛基于 Apache Hudi 构建 Lakehouse

    Ankur 和 Ayush 分享了他们从沃尔玛从数据湖到数据 Lakehouse 架构的战略转变的动机和经验,重点关注了 Apache Hudi Lakehouse 格式在实现这一变化中的重要性。 他们的一些主要收获是促使使用数据 Lakehouse 的挑战以及采用通用 Lakehouse 架构的好处。 这些好处结合了数据湖和数据仓库架构的优点,包括更快的行级操作、强大的模式实施和版本控制、更好的事务支持、有效的重复处理等等。 了解 Apache Hudi 随着这种自然的演变,Ankur 和 Ayush 旅程的下一步是为沃尔玛选择正确的数据Lakehouse架构。 由于所有数据湖都使用某种文件系统(AWS 上的 S3 等),并且某些文件格式(Parquet、CSV 等)在其上存储数据,因此 Hudi 适合原始数据格式和计算之间的层引擎。

    38910编辑于 2024-03-18
  • 来自专栏深度学习与python

    Lakehouse 如何重塑企业数据生态?

    完整直播回放可查看:https://www.infoq.cn/video/dZmjyL6SMA5bTeet3oLS 1 Lakehouse 架构的演进与关键趋势 伍翀: 过去一年 Lakehouse Lakehouse 架构,那么 Lakehouse 未来的关键发展趋势有哪些? 这些因素都会影响企业在引入实时 Lakehouse 架构时的选型决策。 在确定选型之后,还需考虑如何让新的 Lakehouse 架构与现有的企业生态兼容。 3 Lakehouse 在云原生、多云与开源生态中的发展 伍翀:Lakehouse 架构如何与云原生环境深度融合,借助云的弹性、可扩展性与托管服务优势,实现架构的轻量化部署与高效运维? 而在海外,S3 基本已经成为事实标准,接口非常统一,这使得对接工作变得更加简单。 然而,在国内,讨论 HDFS 是否被替代可能还为时过早。

    54410编辑于 2025-03-21
  • 来自专栏ApacheHudi

    加速 Lakehouse 表性能完整指南

    这些项目成为Apache Iceberg[2] (诞生于 Netflix)和 Linux 基金会的Delta Lake[3] (诞生于 Databricks),最终融合为“数据Lakehouse”的术语 这就是 Lakehouse 的性能调整非常重要的地方。 Lakehouse 和开放表格式可以通过存储和计算的解耦来显着节省成本,并利用云超大规模存储服务实现近乎无限可扩展的存储。 如何优化 Data Lakehouse 性能 在本节中,我们将讨论 Lakehouse 表实现性能提升的常见方法,以及工程师如何利用这些技术来发挥我们的优势。 和 Q3。 __hstc=17958374.de3d8547d31e71355dda68c54a3ecefe.1721135242002.1736199423630.1736372767573.26&__hssc=

    60000编辑于 2025-01-20
  • StarRocks 4.0:Real-Time Intelligence on Lakehouse

    StarRocks 3.x,升级存算分离架构,打造极速统一的湖仓分析能力,让数据分析更加的简单高效。 实时分析更高效StarRocks 3.x 在存算分离架构下,基于低成本的对象存储构建实时分析能力,相比存算一体的方案在存储成本上有了数量级的下降。 让 JSON 可以享受和结构化列同样的加速手段:相比 3.5 版本,StarRocks 4.0 在 JSON 查询上的性能提升 3–15 倍。 拓展更多严苛场景在金融、支付、Web3、IoT 等场景中,数据的精度、一致性与时间序列分析能力往往决定了业务的可靠性和决策的准确度。 Fast Delivery:Lakehouse 架构是 AI 时代的数据基座,StarRocks 持续优化 Lakehouse 构建、治理与分析的能力,让数据到业务价值的交付变得更加高效。

    46310编辑于 2025-10-28
  • 来自专栏ApacheHudi

    Notion 基于Apache Hudi构建LakeHouse

    这促使从单个 Postgres 表转变为 15 个逻辑分片,如图 3 所示,这是 Notion 数据基础设施的重大飞跃。事实上它是如此重要,以至于基础设施团队值得发表一篇博客文章。 正是看到这种模式,促使 Notion 团队转向通用数据 Lakehouse 架构,该架构将更好地支持这种观察到的更新模式。 使用 Apache Hudi 解决挑战 该团队当时有多种架构选择 - Apache Hudi、Apache Iceberg 和 Delta Lake(Databricks 使用的内部 Delta Lakehouse 架构的开源版本)。 还指出了 Hudi 的 Lakehouse 架构对其数据基础设施的好处,并指出 Hudi 为 Notion 节省了 125 万美元的成本并提高了性能。

    49810编辑于 2024-03-06
  • 来自专栏大数据

    四大主流大数据架构详解与实战:MPP、Lambda、Kappa、Lakehouse,附存储选型指南

    2.4Lakehouse架构:数据湖与数据仓库的“融合王者”2.4.1核心原理Lakehouse(数据湖仓)架构是近年来最热门的大数据架构,核心思路是“融合数据湖的灵活性和数据仓库的高性能”——既保留数据湖 核心工具:对象存储(OSS/S3)、HDFS(分布式文件系统),存储原始数据,保留数据的原始格式。 2.4.4存储选型(核心重点)Lakehouse架构的存储选型核心是“数据湖存储+湖仓一体引擎”,兼顾灵活性、高性能和低成本,具体方案如下:数据湖核心存储:优先选择对象存储(OSS/S3),适合海量非结构化 选型禁忌:中小型企业谨慎选型(Lakehouse架构复杂度高,运维成本高,需专业团队);数据量级较小(TB级以下),无需使用Lakehouse(性价比低,不如MPP或Lambda架构)。 想简化架构,选Kappa架构;大型企业、海量多类型数据、统一分析,选Lakehouse架构

    61821编辑于 2026-03-09
  • 来自专栏ApacheHudi

    基于 Apache Hudi + dbt 构建开放的Lakehouse

    本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse。我们很高兴地宣布,用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse。 什么是LakehouseLakehouse 是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素。 如何建造一个开放的Lakehouse? 这是构建Lakehouse的第一步,这里有很多选择可以将数据加载到我们的开放Lakehouse中。 物化是在 Lakehouse 中持久化 dbt 模型的策略。

    1.7K10编辑于 2022-12-09
  • Lakehouse x AI ,打造智能 BI 新体验

    为什么 Lakehouse 正在成为智能分析的关键基石? 在智能分析场景中,数据通常经历 ETL 与特征工程 → 模型训练(training)→ 推理(inference)→ 服务(serving)等环节,整个链路的读取与存储均依赖 Lakehouse 架构中具备 StarRocks 的 lakehouse 架构赋能实时智能分析StarRocks 构建了统一的 Lakehouse 架构,有效支撑从数据接入、处理、分析到 AI 推理的全链路能力,正成为智能分析的关键底座 在标准测试集(如 SSB、TPC-DS、TPC-H)中,查询性能普遍领先竞品 2–3 倍;多个实际迁移案例也实现 1–2 倍性能提升。2. 3. 业务赋能:直面分析,业务人员按需加载在 ELT 架构下,研发专注数据导入湖仓,业务人员可通过元数据平台按需获取数据,自主完成报表构建与分析探索,显著降低跨团队沟通与交付成本。4.

    40910编辑于 2025-07-26
  • 来自专栏DDD

    架构架构3

    最近又看了几本关于架构的书籍,不禁回到原点:架构是什么?架构师职责是什么? 、架构决策以及设计原则 系统结构 实现该系统的一种或多种架构风格(比如微服务、分层和微内核) 仅仅描述结构并不能完整地诠释架构,还需要了解架构特征、架构决策和设计原则 架构特征 架构特征定义了系统的成功标准 架构特征满足三个标准: 1.明确非领域设计的某个注意事项2.影响设计的某些结构项3.是否对应用的成功至关重要 构架决策 架构决策定义了一组关于如何构建系统的规则,构成了系统约束,并指导团队哪些可以做, 它需要知识以及应用知识的能力 2.影响力用来衡量架构师在项目中应用技能后给项目或公司带来多大的效益 3.领导力确保了架构实践的状态能稳步向前推进,同时培养更多的架构师 能力模型 论能力模型,与开发人员之间对技术方向的侧重有所不同 避免瓶颈陷阱方法之一是将关键路径和框架代码委托给开发团队其他人员,然后着重于实现业务功能(一个服务),并且在1~3个迭代中完成。 如何保持编码能力和一定水平的技术深度呢?

    59730发布于 2021-11-12
  • 来自专栏ApacheHudi

    使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用

    这种模块化方法创建了一个面向未来的架构,可以根据需要将新的计算引擎添加到堆栈中。 然而,在单节点架构中直接使用来自湖仓一体的数据的需求正变得至关重要,尤其是在进行临时分析和构建分析应用程序时,这加快了洞察过程的时间。对于此类用例并不总是需要经历设置基础架构的繁琐过程。 架构: • 数据湖存储:Amazon S3 • 文件格式 — CSV、Parquet • 表格式 — Apache Hudi • 计算引擎 — Apache Spark(写入)、Daft(读取) • 用户界面 通过支持直接访问数据的开放数据架构可以避免这种情况。 • 成本效益:使用开放式湖仓一体架构可消除对复杂 ETL 管道和频繁数据提取的需求,从而降低成本,而 Amazon S3 等云存储允许根据需要进行扩展。

    1.1K10编辑于 2024-05-20
领券