首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ApacheHudi

    农业银行一体实时建设探索实践

    同时,随着Hudi、Iceberg、Delta Lake等数据技术发展,依托数据湖底座的一体实时建设正在兴起,对推进企业数字化转型具有重要价值: • 一是弥补现有架构的不足,一体实时弥补了传统数对于数据实时处理能力的不足 • 三是提升企业级数据分析整合能力,一体实时打破了数据与数据仓库割裂的体系,将数据的灵活性、数据多样性以及丰富的生态与数据仓库的企业级数据分析能力进行了融合。 实时建设关键技术 3.1 实时数据入 实时数据入一体实时数据模型建设的基础,与流计算模式下“即用即弃”的数据处理策略不同,一体实时借助Hudi数据存储引擎对实时流数据进行摄入存储 未来展望 一体实时将数据的灵活性、数据多样性、丰富生态与数据仓库的企业级数据分析能力进行了融合,对实时数据模型建设具有重要价值。 5.3 开放的多租户能力建设 数据租户依托数据统一存算底座,低成本拎包入住,实现资源申配、实时数据授权、资产发现,利用实时持续实时数据、共性模型供给,并结合数据一站式DataOps标准化工艺

    2.5K40编辑于 2023-11-06
  • 来自专栏Apache Doris

    分析|浙江霖梓基于 Doris + Paimon 打造实时离线一体化架构

    Doris + Paimon 的实时/离线一体化架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。 基于 Apache Doris 的实时/离线一体化架构经过七个月的设计与实施,最终完成了基于 Apache Doris 离线 / 实时一体化统一架构。 #开启⾏存"store_row_column" = "true" 总结与规划截至目前,基于 Doris + Paimon 的实时/离线一体化架构已为反欺诈策略、用户⾏为分析、业务监控、 BI 应用等若干系统提供了服务 未来,浙江霖梓将持续扩大 Apache Doris 在内部系统的使用范围,并将对数据能力、智能实时应用进行探索及应用:全面接入数据:逐渐扩大 Doris + Paimon ⼀体化架构的应用范围, 最后,衷⼼感谢 SelectDB 与 Apache Doris 社区伙伴的相携相伴,我们也会基于 Doris 进⾏离线 / 实时构建中持续挖掘,力求找到更优的问题解决方案,并回馈至社区。

    1K20编辑于 2025-02-13
  • 来自专栏大数据技术架构

    数据|Flink + Iceberg 全场景实时的建设实践

    本文由腾讯数据平台部高级工程师苏舒分享,主要介绍腾讯大数据部门基于 Apache Flink 和 Apache Iceberg 构建实时的应用实践,介绍主要包括如下几个方面: 背景及痛点 数据 Apache 这也是实时建设的迫切需求(图 6)。实际上是可以通过对 Kappa 架构进行升级,以解决 Kappa 架构中遇到的一些问题,接下来主要分享当前比较火的数据技术--Iceberg。 Iceberg 的这个能力对于构建实时是非常重要的能力之一。 Iceberg 这些功能来构建基于 Flink 的实时全链路批流一体化的实时架构。 图 14 2.实时 - 数据分析系统 此前需要先进行数据接入,比如用 Spark 的离线调度任务去跑一些数据,拉取,抽取最后再写入到 Hive 表里面,这个过程的延时比较大。

    5.3K43发布于 2021-08-25
  • 来自专栏可君的数据开发沉淀

    腾讯游戏广告流批一体实时建设实践

    在降本增效的大背景下,我们针对结合计算引擎Flink与数据技术Iceberg建设流批一体实时做了较多的探索和实践,已经具备可落地可复制的经验。 Iceberg可以承担这个任务,并借在数中引入数据实现一体。 对于需求(1),我们需要用批处理保证结果的准确性,对于需求(2),我们需要用流处理保证结果的实时性。在流批一体实时架构下,我们会如下开发这两个需求的代码。 :在新业务中逐渐引入流批一体实时架构,并对原有业务进行优化改造,积累大规模业务的运维经验,如Iceberg的元数据和数据管理调研另一种数据技术Hudi,总结出对比Iceberg的优缺点,并根据各自适用场景应用于业务中关注 致谢在此要感谢所在团队对流批一体实时建设的支持,并且要感谢相关研发团队的大力支持。

    2.8K41编辑于 2023-01-10
  • 来自专栏ClickHouse

    一体

    做一名主要从事OLAP内核研发,对现有理解做个总结;欢迎批评/指正/讨论 1 为什么一体这么热: 定义这里就不赘述了,大家可以去搜 我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题 ,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对本质的理解可能都不太一样,那又怎么谈一体呢。 (数据,离线数); 从数据处理的方式/或者说从使用的角度出发,又分为,流式处理和批处理,流又表现出了 在线、实时的特性, 批表现出了 离线、非实时的特性; 从存储性能角度出发:我们分为 寄存器、Cache ADB-MySQL)(存算引擎,实时、关系型,结构化,半结构化,实时) Trino、MaxCompute(计算引擎,实时、离线) Spark(计算引擎,批处理、离线、结构化、半结构化) Iceberg /RedShift 一体?

    1.1K21编辑于 2024-11-26
  • 来自专栏超级架构师

    【数据】数据和仓库:范式简介

    博客系列 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和雪花 数据和仓库第 3 部分:Azure Synapse 观点 两种范式:数据与数据仓库 基于一些主要组件的选择 ,云分析解决方案可以分为两类:数据和数据仓库。 但是,文章分析也适用于实时平台。这些工具可以从处理(绿色)或存储(蓝色)的角度进行分类。下面的工具行对应于它们在平台不同阶段的可用性。 例如,典型的数据解决方案由单独的处理和存储工具组成。 问题是由于数据量、实时要求和类型多样性造成的,其中包括非结构化和半结构化数据。为了补充工具集,在过去十年左右开发了数据类型的解决方案。 集中式数据元数据管理工具越来越多,但使用它们取决于开发过程。技术很少强制这样做。 结论:数据和数据仓库 在这篇文章中,我们讨论了数据仓库和基于数据的解决方案的基本方法或范式的差异。

    1.2K10编辑于 2022-03-08
  • 来自专栏about云

    一体详解

    问题导读 1.什么是数据仓库、数据集市和数据? 2.一体化为什么诞生? 3.一体化是什么? 4.一体化的好处是什么? 2.1 打通数据的存储与计算 很多公司对各类数据应用包括 SQL 分析、实时监控、数据科学和机器学习的灵活性、高性能系统的需求并未减少。 是否能有一种方案同时兼顾数据的灵活性和云数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本?那么一体化就是答案! 3.一体化是什么? 一体是一种新型开放式架构,将数据和数据仓库的优势充分结合,它构建在数据低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能,打通数据和数据仓库两套体系,让数据和计算在之间自由流动 4.一体化的好处是什么? 一体能发挥出数据的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。

    5K21编辑于 2022-03-31
  • 来自专栏DevOps

    实时实时3.0的演进之路

    存储一旦能够做到统一,上述数据仓库架构就会变成如下模样(以Iceberg数据作为统一存储为例),称为实时2.0: 这套架构中无论是流处理还是批处理,数据存储都统一到数据Iceberg上。 确实,上述架构图主要将离线处理链路上的HDFS换成了数据Iceberg,就号称可以实现实时,听起来容易让人迷糊。这里的关键就是数据Iceberg,它到底有什么魔力? 这样的架构要成为一个可以落地的实时方案,数据Iceberg是需要满足如下几个要求的: (1)支持流式写入-增量拉取。 这个问题才是离线数做不到实时的最关键原因之一,离线数的玩法是说上游将数据全部导入完成了,告诉下游说这波数据全部导完了,你可以消费处理了,这样的话就做不到实时处理。 数据就解决了这个问题。 对于业界目前实时的一个发展预估,个人觉得目前业界大多公司都还往实时1.0这个架构上靠;而在接下来1到2年时间随着数据技术的成熟,实时2.0架构会成为越来越多公司的选择,其实到了2.0时代之后

    1.1K10编辑于 2024-03-29
  • 来自专栏腾讯大讲堂的专栏

    实时一体在腾讯的实践落地丨DAMS峰会

    其中,腾讯实时团队负责人邵赛赛老师将分享《实时一体在腾讯的实践落地》,内容概要提前剧透: 实时一体在腾讯的实践落地 议题要点及收获: 一体技术可以为业务带来原先Hadoop数所无法提供的能力 本议题将分享以下内容: 主流数据技术(Iceberg、Hudi、Delta Lake)的能力和适用场景,以及如何在业务场景中使用一体技术代替原有组件; 腾讯内部的业务如何使用一体技术改造原有架构 ,带来降本增效; 介绍腾讯在做的实时技术,将一体从准实时提升到实时的实践。 演讲时间:2023年3月31日 演讲地点:DAMS中国数据智能管理峰会-上海站(上海龙之梦大酒店) 演讲场次:大数据专场 邵赛赛 腾讯 实时团队负责人  讲师介绍: 腾讯大数据实时团队负责人 以上分享内容将会在2023 DAMS中国数据智能管理峰会-上海站完整呈现,更多关于数据治理、数据分析、数据资产管理、数据中台、实时一体、存算分离、离在线混部、时序数据库、智能运维等互联网大厂及大型银行的实战经验

    60140编辑于 2023-03-07
  • 来自专栏个人总结系列

    实时

    背景说明         一方面互联网行业对实时化服务的要求日益增多,尤其在信息流,短视频应用最为显著,同时随着实时技术引擎的发展能够提供高效,稳定的实时数据服务能力。 另一方面初期实时计算都是以需求为导向,采用"一路到底"的开发模式,没有形成完整的,统一的,规范化的实时数据体系。 为了避免我们同事踩坑,总结自己的过往实时开发经验,梳理对应实时数据体系。 二. 实时技术架构和应用 根据离线数据的开发,过往实时开发经验,对应实时计算架构和分层如下图所示: image.png 通常离线数,采用空间换取时间的方式,所以层级划分比较多从而提高数据计算效率 ;而对于实时考虑时效,分层越少越好,减少分层也是为了减少中间流程出错的可能,主流的是数据接入 → 数据汇总 → 结果输出 这三层。 ④ DWS层:主要分为两部分,一部分是统计计算,指标汇总输出,提供给实时大屏显示,实时报表等,或者实时标签输出到redis, 被push推荐系统调用等;另一部分就是DWD层,能够进行实时olap处理的数据输出

    1.6K20发布于 2021-07-16
  • 来自专栏QQ大数据团队的专栏

    腾讯云位居 IDC MarketScape 中国实时市场“领导者”类别

    数据量级的攀升和计算场景的多元持续驱动着大数据技术革新,而实时代表了当下主流趋势和企业需求——针对实时场景,通过能兼容多种数据类型的一体技术架构,实现技术与应用场景的支持和融合。 腾讯云大数据通过数据仓库 TCHouse 和数据计算 DLC 助力企业快速落地实时技术。 越来越多的企业正在”实时“的创新技术架构下,为业务发展提供全新数据动力。 蔚来基于腾讯云大数据了打造实时与统一数据开发治理平台,实现综合成本优化,运维资源减少 60%,日均运行上万个任务实例,满足模型更新敏捷迭代需求,支撑自动驾驶业务发展。 除此之外,仅 2024 年,腾讯云实时解决方案还新增百家客户,覆盖政府、汽车、网络、AI、证券、审计、医疗等众多行业,市场认可度不断提升。

    55610编辑于 2024-08-05
  • 来自专栏腾讯大数据的专栏

    实时一体规模化实践:腾讯广告日志平台

    2.2 实时化改造 - 实时 在项目建设初期,我们选择了小时级入,没有急于上线实时,主要基于下面几点考虑: A、基于分区设定,小时入可以做到幂等性,批量一次性覆盖写入,方便调试和测试,快速打通上线基于数据的日志数 针对这些考虑点,结合 Spark batch 入积累的经验,我们建设了基于 Flink 的实时链路,如下图所示: 基于 Flink 的分钟级入任务,实时消费消息队列 + ETL + 写入数据 Partition Evolution:在数或者数据中一个加速数据查询很重要的手段就是对数据进行分区,这样查询时可以过滤掉很多的不必要文件。 一体方案遇到的挑战和改进 日志数据从各个终端写入消息队列,然后通过Spark批写入或者Flink流式(开发中)写入数据,入的数据可以通过Spark/Flink/Presto进行查询分析。 项目收益 日志底座数 建设统一的日志底座,广告日志存储在数据 Iceberg 表中,用户无需关心日志格式和路径,只需指定表名 + 时间范围即可访问日志。

    1.7K30编辑于 2022-09-20
  • 来自专栏Lansonli技术博客

    一体电商项目(十四):实时任务执行流程

    实时任务执行流程目前暂时将项目在本地执行,执行顺序如下:一、准备环境这里默认HDFS、Hive、HBase、Kafka环境已经准备,启动maxwell组件监控mysql业务库数据:#在Kafka中创建好对应的

    37151编辑于 2022-09-13
  • 来自专栏大数据-BigData

    实时一体规模化实践:腾讯广告日志平台

    2.2 实时化改造 – 实时 在项目建设初期,我们选择了小时级入,没有急于上线实时,主要基于下面几点考虑: A、基于分区设定,小时入可以做到幂等性,批量一次性覆盖写入,方便调试和测试,快速打通上线基于数据的日志数 针对这些考虑点,结合 Spark batch 入积累的经验,我们建设了基于 Flink 的实时链路,如下图所示: 基于 Flink 的分钟级入任务,实时消费消息队列 + ETL + 写入数据 Partition Evolution:在数或者数据中一个加速数据查询很重要的手段就是对数据进行分区,这样查询时可以过滤掉很多的不必要文件。 一体方案遇到的挑战和改进 日志数据从各个终端写入消息队列,然后通过Spark批写入或者Flink流式(开发中)写入数据,入的数据可以通过Spark/Flink/Presto进行查询分析。 5、未来规划 当前已有部分规划中的已经在进行中: 基于Flink的实时,已经在开发中了,上线后会提供更好的实时性。

    1.3K10编辑于 2022-12-02
  • 来自专栏大数据成神之路

    一体实时化时代全面开启!

    摘要:本文整理自阿里云开源大数据平台负责人王峰(莫问)老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享,主要介绍在新一代架构上如何进行实时化大数据分析 01 Data Lake + Data Warehouse = Data Lakehouse 架构(Lakehouse)目前在业界已得到越来越多的使用。 Lakehouse 是由 Data Warehouse(数)和 Data Lake(数据)这两种数据架构的融合,同时兼具二者的优势而形成自己独特的优点。 其中一项非常重要的一个诉求就是如何在 Lakehouse 的架构上进行实时化大数据分析。如果在数据架构上就行实时数据分析,至少要具备两个条件/基本要素。 以及业务上的一些实践,在今年三月份,Paimon 正式的从 Apache 基金会毕业,成为新的一个顶级项目,并且完成了和主流如 Spark、Flink、Presto、StarRocks 等引擎的集成,可以提供一套完整的实时分析的解决方案

    5.8K11编辑于 2024-06-17
  • 来自专栏腾讯大数据的专栏

    直播|分析型论坛

    随着技术的持续演进,数据仓库和数据方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化,湖上建仓、中数据降冷到、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配,各大厂商也陆续提出了自己的融合方案 通过本次分享,听众可以了解新一代融合架构、物化视图等方向的前沿技术。 演讲题目:天穹OLAP:实时融合平台架构实践 演讲提纲:本次分享将会介绍基于天穹 OLAP 平台的实时融合架构。主要内容包括: 1. 介绍数据实时之间的异同以及融合的意义、常见融合方案的优劣 2. 解析腾讯大数据是如何解决当前融合的痛点,以及如何将实时演变成新的实时融合架构 3. 腾讯大数据后续如何更进一步升级融合架构 听众收益: 1. 了解当前数据实时的优劣,并了解腾讯大数据是如何解决当前融合的痛点 2.

    68820编辑于 2023-07-12
  • 来自专栏超级架构师

    【数据】数据和仓库:Databricks 和 Snowflake

    我们比较了 Databricks 和 Snowflake,以评估基于数据和基于数据仓库的解决方案之间的差异。 在这篇文章中,我们将介绍基于数据仓库和基于数据的云大数据解决方案之间的区别。 根据上一篇给出的定义,我们可以粗略的说Databricks是一个基于数据的工具,而Snowflake是一个基于数据仓库的工具。现在让我们更深入地研究这些工具。 Delta 文件格式是一种将数据库优势带入数据世界的方法。除其他外,该格式提供数据模式版本控制和数据库类型 ACID 事务。根据数据范式,文件格式本身是开放的,任何人都可以免费使用。 基于 Delta 格式和 Databricks 工具,该公司正在尝试为数据和数据仓库混合方法传播一种新颖的“Data Lakehouse”范式概念。 这是 Snowflake 向数据范式方向扩展其解决方案的方式之一。如今,它提供了用于实时数据摄取的高效工具等。

    3.3K10编辑于 2022-03-08
  • 来自专栏超级架构师

    【数据】数据和仓库:Azure Synapse 视角

    我们将讨论 Azure Synapse 在数据和数据仓库范式规模上的定位。 在本文中,我们将讨论 Microsoft 的 Azure Synapse Analytics 框架。 具体来说,我们关注如何在其中看到数据仓库和数据范式的区别。 为了熟悉这个主题,我建议你先阅读本系列的前几篇文章。 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和Showflake 数据和仓库第 3 部分:Azure Synapse 观点 我们现在考虑一个更新颖的解决方案,该解决方案与该主题的角度略有不同 当我们回到本系列第一篇文章中介绍的数据仓库和数据范式区别时,会出现一个有趣的细节。从费用的角度来看,这两种范式可以在 Synapse 环境组件中看到。 除 Synapse 专用 SQL 池数据仓库外,所有处理组件均按数据范例的典型使用量付费。所有工具甚至都有自动关机功能。

    1.6K20编辑于 2022-03-08
  • 来自专栏大数据学习与分享

    数据一体架构实践

    02 基于 Iceberg 的一体架构实践 一体的意义就是说我不需要看见,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。 ——贾扬清 1. 启动之后,会在实时计算平台 Flink 里面提交一个实时任务,接着用 Copy-on-write sink 去实时地把数据写到 Iceberg 表里面。 9. 入其他实践 10. 总结 通过对一体、流批融合的探索,我们分别做了总结。 一体 Iceberg 支持 Hive Metastore; 总体使用上与 Hive 表类似:相同数据格式、相同的计算引擎。 架构收益 - 准实时 上方也提到了,我们支持准实时的入仓和分析,相当于是为后续的准实时建设提供了基础的架构验证。准实时的优势是一次开发、口径统一、统一存储,是真正的批流一体。 但是在架构层面上,这个意义还是很大的,后续我们能看到一些希望,可以把整个原来 “T + 1” 的数,做成准实时的数,提升数整体的数据时效性,然后更好地支持上下游的业务。

    3.7K32编辑于 2022-12-12
  • 来自专栏大数据从业者

    一文掌握教育行业FlinkCDC+Paimon实时案例实践总结

    前言 本文记录某高校客户的实时案例实践总结。业务数据库为MySQL,最终方案为很经典的流式架构:Mysql -> FlinkCDC -> Paimon -> FlinkSQL。 组件版本信息如下: MySQL 5.7.36 FlinkCDC 3.2.0 Paimon 0.9.0 Flink 1.18.1 欢迎关注微信公众号:大数据从业者 Paimon支持以多种形式FlinkCDC实时导入源端数据与元数据变更 也就是说源端增加列、不用重启Flink作业、可以自动识别实时导入到Paimon表。目前,Paimon支持的CDC形式包括:Mysql、Postgres、Kafka、Mongo、Pulsar。

    96710编辑于 2024-10-14
领券