搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏ApacheHudi
农业银行湖仓一体实时数仓建设探索实践
同时，随着Hudi、Iceberg、Delta Lake等数据湖技术发展，依托数据湖底座的湖仓一体实时数仓建设正在兴起，对推进企业数字化转型具有重要价值： • 一是弥补现有架构的不足，湖仓一体实时数仓弥补了传统数仓对于数据实时处理能力的不足 • 三是提升企业级数据分析整合能力，湖仓一体实时数仓打破了数据湖与数据仓库割裂的体系，将数据湖的灵活性、数据多样性以及丰富的生态与数据仓库的企业级数据分析能力进行了融合。实时数仓建设关键技术 3.1 实时数据入湖实时数据入湖是湖仓一体实时数仓数据模型建设的基础，与流计算模式下“即用即弃”的数据处理策略不同，湖仓一体实时数仓借助Hudi数据湖存储引擎对实时流数据进行摄入存储未来展望湖仓一体实时数仓将数据湖的灵活性、数据多样性、丰富生态与数据仓库的企业级数据分析能力进行了融合，对实时数据模型建设具有重要价值。 5.3 开放的多租户能力建设数据湖仓租户依托数据湖统一存算底座，低成本拎包入住，实现资源申配、实时数据授权、资产发现，利用实时数仓持续实时数据、共性模型供给，并结合数据湖一站式DataOps标准化工艺
2.5K40编辑于 2023-11-06
来自专栏Apache Doris
湖仓分析｜浙江霖梓基于 Doris + Paimon 打造实时离线一体化湖仓架构
Doris + Paimon 的实时/离线一体化湖仓架构，实现查询提速 30 倍、资源成本节省 67% 等显著成效。基于 Apache Doris 的实时/离线一体化湖仓架构经过七个月的设计与实施，最终完成了基于 Apache Doris 离线 / 实时一体化湖仓统一架构。 #开启⾏存"store_row_column" = "true" 总结与规划截至目前，基于 Doris + Paimon 的实时/离线一体化湖仓架构已为反欺诈策略、用户⾏为分析、业务监控、 BI 应用等若干系统提供了服务未来，浙江霖梓将持续扩大 Apache Doris 在内部系统的使用范围，并将对数据湖能力、智能实时应用进行探索及应用：全面接入数据湖：逐渐扩大 Doris + Paimon 湖仓⼀体化架构的应用范围，最后，衷⼼感谢 SelectDB 与 Apache Doris 社区伙伴的相携相伴，我们也会基于 Doris 进⾏离线 / 实时湖仓构建中持续挖掘，力求找到更优的问题解决方案，并回馈至社区。
1K20编辑于 2025-02-13
来自专栏大数据技术架构
数据湖｜Flink + Iceberg 全场景实时数仓的建设实践
本文由腾讯数据平台部高级工程师苏舒分享，主要介绍腾讯大数据部门基于 Apache Flink 和 Apache Iceberg 构建实时数仓的应用实践，介绍主要包括如下几个方面：背景及痛点数据湖 Apache 这也是实时数仓建设的迫切需求（图 6）。实际上是可以通过对 Kappa 架构进行升级，以解决 Kappa 架构中遇到的一些问题，接下来主要分享当前比较火的数据湖技术--Iceberg。 Iceberg 的这个能力对于构建实时数仓是非常重要的能力之一。 Iceberg 这些功能来构建基于 Flink 的实时全链路批流一体化的实时数仓架构。图 14 2.实时数仓 - 数据湖分析系统此前需要先进行数据接入，比如用 Spark 的离线调度任务去跑一些数据，拉取，抽取最后再写入到 Hive 表里面，这个过程的延时比较大。
5.3K43发布于 2021-08-25
来自专栏可君的数据开发沉淀
腾讯游戏广告流批一体实时湖仓建设实践
在降本增效的大背景下，我们针对结合计算引擎Flink与数据湖技术Iceberg建设流批一体实时湖仓做了较多的探索和实践，已经具备可落地可复制的经验。 Iceberg可以承担这个任务，并借在数仓中引入数据湖实现湖仓一体。对于需求（1），我们需要用批处理保证结果的准确性，对于需求（2），我们需要用流处理保证结果的实时性。在流批一体实时湖仓架构下，我们会如下开发这两个需求的代码。：在新业务中逐渐引入流批一体实时湖仓架构，并对原有业务进行优化改造，积累大规模业务的运维经验，如Iceberg的元数据和数据管理调研另一种数据湖技术Hudi，总结出对比Iceberg的优缺点，并根据各自适用场景应用于业务中关注致谢在此要感谢所在团队对流批一体实时湖仓建设的支持，并且要感谢相关研发团队的大力支持。
2.8K41编辑于 2023-01-10
来自专栏ClickHouse
湖仓一体
做一名主要从事OLAP内核研发，对现有湖仓理解做个总结；欢迎批评/指正/讨论 1 为什么湖仓一体这么热：湖、仓定义这里就不赘述了，大家可以去搜我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题，寻求一个适配公司、平台的数据架构，一站式解决，但是大家对湖、仓本质的理解可能都不太一样，那又怎么谈湖仓一体呢。 (数据湖，离线数仓)；从数据处理的方式/或者说从使用的角度出发，又分为，流式处理和批处理，流又表现出了在线、实时的特性，批表现出了离线、非实时的特性；从存储性能角度出发：我们分为寄存器、Cache ADB-MySQL)(存算引擎，实时、关系型，结构化，半结构化，实时数仓) Trino、MaxCompute(计算引擎，实时、离线) Spark(计算引擎，批处理、离线、结构化、半结构化) Iceberg /RedShift 湖仓一体？
1.1K21编辑于 2024-11-26
来自专栏超级架构师
【数据湖仓】数据湖和仓库：范式简介
博客系列数据湖和仓库第 1 部分：范式简介数据湖和仓库第 2 部分：Databricks 和雪花数据湖和仓库第 3 部分：Azure Synapse 观点两种范式：数据湖与数据仓库基于一些主要组件的选择，云分析解决方案可以分为两类：数据湖和数据仓库。但是，文章分析也适用于实时平台。这些工具可以从处理（绿色）或存储（蓝色）的角度进行分类。下面的工具行对应于它们在平台不同阶段的可用性。例如，典型的数据湖解决方案由单独的处理和存储工具组成。问题是由于数据量、实时要求和类型多样性造成的，其中包括非结构化和半结构化数据。为了补充工具集，在过去十年左右开发了数据湖类型的解决方案。集中式数据湖元数据管理工具越来越多，但使用它们取决于开发过程。技术很少强制这样做。结论：数据湖和数据仓库在这篇文章中，我们讨论了数据仓库和基于数据湖的解决方案的基本方法或范式的差异。
1.2K10编辑于 2022-03-08
来自专栏about云
湖仓一体详解
问题导读 1.什么是数据仓库、数据集市和数据湖？ 2.湖仓一体化为什么诞生？ 3.湖仓一体化是什么？ 4.湖仓一体化的好处是什么？ 2.1 打通数据的存储与计算很多公司对各类数据应用包括 SQL 分析、实时监控、数据科学和机器学习的灵活性、高性能系统的需求并未减少。是否能有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性，将二者有效结合起来为用户实现更低的总体拥有成本？那么湖仓一体化就是答案！ 3.湖仓一体化是什么？湖仓一体是一种新型开放式架构，将数据湖和数据仓库的优势充分结合，它构建在数据湖低成本的数据存储架构之上，又继承了数据仓库的数据处理和管理功能，打通数据湖和数据仓库两套体系，让数据和计算在湖和仓之间自由流动 4.湖仓一体化的好处是什么？湖仓一体能发挥出数据湖的灵活性与生态丰富性，以及数据仓库的成长性与企业级能力。
5K21编辑于 2022-03-31
来自专栏DevOps
实时数仓：实时数仓3.0的演进之路
存储一旦能够做到统一，上述数据仓库架构就会变成如下模样（以Iceberg数据湖作为统一存储为例），称为实时数仓2.0：这套架构中无论是流处理还是批处理，数据存储都统一到数据湖Iceberg上。确实，上述架构图主要将离线处理链路上的HDFS换成了数据湖Iceberg，就号称可以实现实时数仓，听起来容易让人迷糊。这里的关键就是数据湖Iceberg，它到底有什么魔力？这样的架构要成为一个可以落地的实时数仓方案，数据湖Iceberg是需要满足如下几个要求的：（1）支持流式写入-增量拉取。这个问题才是离线数仓做不到实时的最关键原因之一，离线数仓的玩法是说上游将数据全部导入完成了，告诉下游说这波数据全部导完了，你可以消费处理了，这样的话就做不到实时处理。数据湖就解决了这个问题。对于业界目前实时数仓的一个发展预估，个人觉得目前业界大多公司都还往实时数仓1.0这个架构上靠；而在接下来1到2年时间随着数据湖技术的成熟，实时数仓2.0架构会成为越来越多公司的选择，其实到了2.0时代之后
1.1K10编辑于 2024-03-29
来自专栏腾讯大讲堂的专栏
实时湖仓一体在腾讯的实践落地丨DAMS峰会
其中，腾讯实时湖仓团队负责人邵赛赛老师将分享《实时湖仓一体在腾讯的实践落地》，内容概要提前剧透：实时湖仓一体在腾讯的实践落地议题要点及收获：湖仓一体技术可以为业务带来原先Hadoop数仓所无法提供的能力本议题将分享以下内容：主流数据湖技术（Iceberg、Hudi、Delta Lake）的能力和适用场景，以及如何在业务场景中使用湖仓一体技术代替原有组件；腾讯内部的业务如何使用湖仓一体技术改造原有架构，带来降本增效；介绍腾讯在做的实时湖仓技术，将湖仓一体从准实时提升到实时的实践。演讲时间：2023年3月31日演讲地点：DAMS中国数据智能管理峰会-上海站（上海龙之梦大酒店）演讲场次：大数据专场邵赛赛腾讯实时湖仓团队负责人讲师介绍：腾讯大数据实时湖仓团队负责人以上分享内容将会在2023 DAMS中国数据智能管理峰会-上海站完整呈现，更多关于数据治理、数据分析、数据资产管理、数据中台、实时数仓、湖仓一体、存算分离、离在线混部、时序数据库、智能运维等互联网大厂及大型银行的实战经验
60140编辑于 2023-03-07
来自专栏个人总结系列
实时数仓
背景说明一方面互联网行业对实时化服务的要求日益增多，尤其在信息流，短视频应用最为显著，同时随着实时技术引擎的发展能够提供高效，稳定的实时数据服务能力。另一方面初期实时计算都是以需求为导向，采用"一路到底"的开发模式，没有形成完整的，统一的，规范化的实时数据体系。为了避免我们同事踩坑，总结自己的过往实时开发经验，梳理对应实时数据体系。二. 实时数仓技术架构和应用根据离线数据的开发，过往实时开发经验，对应实时计算架构和分层如下图所示： image.png 通常离线数仓，采用空间换取时间的方式，所以层级划分比较多从而提高数据计算效率；而对于实时数仓考虑时效，分层越少越好，减少分层也是为了减少中间流程出错的可能，主流的是数据接入 → 数据汇总 → 结果输出这三层。 ④ DWS层：主要分为两部分，一部分是统计计算，指标汇总输出，提供给实时大屏显示，实时报表等，或者实时标签输出到redis, 被push推荐系统调用等；另一部分就是DWD层，能够进行实时olap处理的数据输出
1.6K20发布于 2021-07-16
来自专栏QQ大数据团队的专栏
腾讯云位居 IDC MarketScape 中国实时湖仓市场“领导者”类别
数据量级的攀升和计算场景的多元持续驱动着大数据技术革新，而实时湖仓代表了当下主流趋势和企业需求——针对实时场景，通过能兼容多种数据类型的湖仓一体技术架构，实现技术与应用场景的支持和融合。腾讯云大数据通过数据仓库 TCHouse 和数据湖计算 DLC 助力企业快速落地实时湖仓技术。越来越多的企业正在”实时湖仓“的创新技术架构下，为业务发展提供全新数据动力。蔚来基于腾讯云大数据了打造实时湖仓与统一数据开发治理平台，实现综合成本优化，运维资源减少 60%，日均运行上万个任务实例，满足模型更新敏捷迭代需求，支撑自动驾驶业务发展。除此之外，仅 2024 年，腾讯云实时湖仓解决方案还新增百家客户，覆盖政府、汽车、网络、AI、证券、审计、医疗等众多行业，市场认可度不断提升。
55610编辑于 2024-08-05
来自专栏腾讯大数据的专栏
实时湖仓一体规模化实践：腾讯广告日志平台
2.2 实时化改造 - 实时湖仓在项目建设初期，我们选择了小时级入湖，没有急于上线实时入湖，主要基于下面几点考虑： A、基于分区设定，小时入湖可以做到幂等性，批量一次性覆盖写入，方便调试和测试，快速打通上线基于数据湖的日志数仓针对这些考虑点，结合 Spark batch 入湖积累的经验，我们建设了基于 Flink 的实时入湖链路，如下图所示：基于 Flink 的分钟级入湖任务，实时消费消息队列 + ETL + 写入数据湖 Partition Evolution：在数仓或者数据湖中一个加速数据查询很重要的手段就是对数据进行分区，这样查询时可以过滤掉很多的不必要文件。湖仓一体方案遇到的挑战和改进日志数据从各个终端写入消息队列，然后通过Spark批写入或者Flink流式（开发中）写入数据湖，入湖的数据可以通过Spark/Flink/Presto进行查询分析。项目收益日志底座数仓建设统一的日志底座，广告日志存储在数据湖 Iceberg 表中，用户无需关心日志格式和路径，只需指定表名 + 时间范围即可访问日志。
1.7K30编辑于 2022-09-20
来自专栏Lansonli技术博客
湖仓一体电商项目（十四）：实时任务执行流程
实时任务执行流程目前暂时将项目在本地执行，执行顺序如下：一、准备环境这里默认HDFS、Hive、HBase、Kafka环境已经准备，启动maxwell组件监控mysql业务库数据：#在Kafka中创建好对应的
37151编辑于 2022-09-13
来自专栏大数据-BigData
实时湖仓一体规模化实践：腾讯广告日志平台
2.2 实时化改造 – 实时湖仓在项目建设初期，我们选择了小时级入湖，没有急于上线实时入湖，主要基于下面几点考虑： A、基于分区设定，小时入湖可以做到幂等性，批量一次性覆盖写入，方便调试和测试，快速打通上线基于数据湖的日志数仓针对这些考虑点，结合 Spark batch 入湖积累的经验，我们建设了基于 Flink 的实时入湖链路，如下图所示：基于 Flink 的分钟级入湖任务，实时消费消息队列 + ETL + 写入数据湖 Partition Evolution：在数仓或者数据湖中一个加速数据查询很重要的手段就是对数据进行分区，这样查询时可以过滤掉很多的不必要文件。湖仓一体方案遇到的挑战和改进日志数据从各个终端写入消息队列，然后通过Spark批写入或者Flink流式（开发中）写入数据湖，入湖的数据可以通过Spark/Flink/Presto进行查询分析。 5、未来规划当前已有部分规划中的已经在进行中：基于Flink的实时入湖，已经在开发中了，上线后会提供更好的实时性。
1.3K10编辑于 2022-12-02
来自专栏大数据成神之路
湖仓一体实时化时代全面开启！
摘要：本文整理自阿里云开源大数据平台负责人王峰（莫问）老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享，主要介绍在新一代湖仓架构上如何进行实时化大数据分析 01 Data Lake + Data Warehouse = Data Lakehouse 湖仓架构（Lakehouse）目前在业界已得到越来越多的使用。 Lakehouse 是由 Data Warehouse（数仓）和 Data Lake（数据湖）这两种数据架构的融合，同时兼具二者的优势而形成自己独特的优点。其中一项非常重要的一个诉求就是如何在 Lakehouse 湖仓的架构上进行实时化大数据分析。如果在数据架构上就行实时数据分析，至少要具备两个条件/基本要素。以及业务上的一些实践，在今年三月份，Paimon 正式的从 Apache 基金会毕业，成为新的一个顶级项目，并且完成了和主流如 Spark、Flink、Presto、StarRocks 等引擎的集成，可以提供一套完整的实时湖仓分析的解决方案
5.8K11编辑于 2024-06-17
来自专栏腾讯大数据的专栏
直播｜分析型湖仓论坛
随着湖仓技术的持续演进，数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时，二者之间的边界也逐渐淡化，湖上建仓、仓中数据降冷到湖、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配，各大厂商也陆续提出了自己的湖仓融合方案通过本次分享，听众可以了解新一代湖仓湖仓融合架构、物化视图等方向的前沿技术。演讲题目：天穹OLAP：实时湖仓融合平台架构实践演讲提纲：本次分享将会介绍基于天穹 OLAP 平台的实时湖仓融合架构。主要内容包括： 1. 介绍数据湖与实时数仓之间的异同以及湖仓融合的意义、常见湖仓融合方案的优劣 2. 解析腾讯大数据是如何解决当前湖仓融合的痛点，以及如何将实时数仓演变成新的实时湖仓融合架构 3. 腾讯大数据后续如何更进一步升级湖仓融合架构听众收益： 1. 了解当前数据湖及实时数仓的优劣，并了解腾讯大数据是如何解决当前湖仓融合的痛点 2.
68820编辑于 2023-07-12
来自专栏超级架构师
【数据湖仓】数据湖和仓库：Databricks 和 Snowflake
我们比较了 Databricks 和 Snowflake，以评估基于数据湖和基于数据仓库的解决方案之间的差异。在这篇文章中，我们将介绍基于数据仓库和基于数据湖的云大数据解决方案之间的区别。根据上一篇给出的定义，我们可以粗略的说Databricks是一个基于数据湖的工具，而Snowflake是一个基于数据仓库的工具。现在让我们更深入地研究这些工具。 Delta 文件格式是一种将数据库优势带入数据湖世界的方法。除其他外，该格式提供数据模式版本控制和数据库类型 ACID 事务。根据数据湖范式，文件格式本身是开放的，任何人都可以免费使用。基于 Delta 格式和 Databricks 工具，该公司正在尝试为数据湖和数据仓库混合方法传播一种新颖的“Data Lakehouse”范式概念。这是 Snowflake 向数据湖范式方向扩展其解决方案的方式之一。如今，它提供了用于实时数据摄取的高效工具等。
3.3K10编辑于 2022-03-08
来自专栏超级架构师
【数据湖仓】数据湖和仓库：Azure Synapse 视角
我们将讨论 Azure Synapse 在数据湖和数据仓库范式规模上的定位。在本文中，我们将讨论 Microsoft 的 Azure Synapse Analytics 框架。具体来说，我们关注如何在其中看到数据仓库和数据湖范式的区别。为了熟悉这个主题，我建议你先阅读本系列的前几篇文章。数据湖和仓库第 1 部分：范式简介数据湖和仓库第 2 部分：Databricks 和Showflake 数据湖和仓库第 3 部分：Azure Synapse 观点我们现在考虑一个更新颖的解决方案，该解决方案与该主题的角度略有不同当我们回到本系列第一篇文章中介绍的数据仓库和数据湖范式区别时，会出现一个有趣的细节。从费用的角度来看，这两种范式可以在 Synapse 环境组件中看到。除 Synapse 专用 SQL 池数据仓库外，所有处理组件均按数据湖范例的典型使用量付费。所有工具甚至都有自动关机功能。
1.6K20编辑于 2022-03-08
来自专栏大数据学习与分享
数据湖与湖仓一体架构实践
02 基于 Iceberg 的湖仓一体架构实践湖仓一体的意义就是说我不需要看见湖和仓，数据有着打通的元数据的格式，它可以自由的流动，也可以对接上层多样化的计算生态。 ——贾扬清 1. 启动之后，会在实时计算平台 Flink 里面提交一个实时任务，接着用 Copy-on-write sink 去实时地把数据写到 Iceberg 表里面。 9. 入湖其他实践 10. 总结通过对湖仓一体、流批融合的探索，我们分别做了总结。湖仓一体 Iceberg 支持 Hive Metastore；总体使用上与 Hive 表类似：相同数据格式、相同的计算引擎。架构收益 - 准实时数仓上方也提到了，我们支持准实时的入仓和分析，相当于是为后续的准实时数仓建设提供了基础的架构验证。准实时数仓的优势是一次开发、口径统一、统一存储，是真正的批流一体。但是在架构层面上，这个意义还是很大的，后续我们能看到一些希望，可以把整个原来 “T + 1” 的数仓，做成准实时的数仓，提升数仓整体的数据时效性，然后更好地支持上下游的业务。
3.7K32编辑于 2022-12-12
来自专栏大数据从业者
一文掌握教育行业FlinkCDC+Paimon实时湖仓案例实践总结
前言本文记录某高校客户的实时湖仓案例实践总结。业务数据库为MySQL，最终方案为很经典的流式架构：Mysql -> FlinkCDC -> Paimon -> FlinkSQL。组件版本信息如下： MySQL 5.7.36 FlinkCDC 3.2.0 Paimon 0.9.0 Flink 1.18.1 欢迎关注微信公众号：大数据从业者 Paimon支持以多种形式FlinkCDC实时导入源端数据与元数据变更也就是说源端增加列、不用重启Flink作业、可以自动识别实时导入到Paimon表。目前，Paimon支持的CDC形式包括：Mysql、Postgres、Kafka、Mongo、Pulsar。
96710编辑于 2024-10-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

农业银行湖仓一体实时数仓建设探索实践

湖仓分析｜浙江霖梓基于 Doris + Paimon 打造实时离线一体化湖仓架构

数据湖｜Flink + Iceberg 全场景实时数仓的建设实践

腾讯游戏广告流批一体实时湖仓建设实践

湖仓一体

【数据湖仓】数据湖和仓库：范式简介

湖仓一体详解

实时数仓：实时数仓3.0的演进之路

实时湖仓一体在腾讯的实践落地丨DAMS峰会

实时数仓

腾讯云位居 IDC MarketScape 中国实时湖仓市场“领导者”类别

实时湖仓一体规模化实践：腾讯广告日志平台

湖仓一体电商项目（十四）：实时任务执行流程

实时湖仓一体规模化实践：腾讯广告日志平台

湖仓一体实时化时代全面开启！

直播｜分析型湖仓论坛

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

【数据湖仓】数据湖和仓库：Azure Synapse 视角

数据湖与湖仓一体架构实践

一文掌握教育行业FlinkCDC+Paimon实时湖仓案例实践总结

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐