首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Apache Doris

    分析|浙江霖梓基于 Doris + Paimon 打造实时离线一体化架构

    Doris + Paimon 的实时/离线一体化架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。 ,大数据业务系统的局限逐渐暴露:报表系统计算缓慢、运维成本持续攀升、组件间的高度耦合导致架构稳定性较差等,严重影响了大数据系统产出效率,因此浙江霖梓引入 Doris+Paimon 重新构建了实时/离线一体化架构 基于 Apache Doris 的实时/离线一体化架构经过七个月的设计与实施,最终完成了基于 Apache Doris 离线 / 实时一体化统一架构。 #开启⾏存"store_row_column" = "true" 总结与规划截至目前,基于 Doris + Paimon 的实时/离线一体化架构已为反欺诈策略、用户⾏为分析、业务监控、 BI 应用等若干系统提供了服务 打通存量数据与 Doris 数的对接,为日后 PB 级数据的分析做好充分准备。

    1.1K20编辑于 2025-02-13
  • 来自专栏腾讯云存储

    直播预告| Lakehouse 一体化架构论坛

    在大模型时代,企业将如何进行一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战? 让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit:OLAP 线上峰会中,「Lakehouse 一体化架构」论坛上看头部企业如何做! 精彩内容,扫码报名,免费参会 本次Lakehouse一体化架构论坛的出品人程力老师,腾讯云数据存储的负责人,他对数据存储架构有着深入的理解与丰富的实践经验。 演讲议题:下一代加速存储 GooseFS 在实时 OLAP 搜索场景中的实践与优化 演讲嘉宾:于飏 腾讯云 COS 对象存储团队资深高级工程师 个人介绍:硕士毕业于西安电子科技大学,一直专注云端对象存储相关技术的研发工作 演讲摘要:腾讯云对象存储中心推出的 GooseFS 加速存储产品,从最初加速应用场景下的海量吞吐与数据本地化调度,已经扩展演进到了实时 OLAP 引擎场景。

    50910编辑于 2024-06-16
  • 来自专栏ApacheHudi

    Flink + Hudi,构架一体化解决方案

    此过程不用执行扫描整个源表的查询 Hudi的优势 •HDFS中的可伸缩性限制•Hadoop中数据的快速呈现•支持对于现有数据的更新和删除•快速的ETL和建模 以上内容主要引用于:《Apache Hudi 详解》 新架构与一体 通过一体、流批一体,准实时场景下做到了:数据同源、同计算引擎、同存储、同计算口径。 实时数的每一层结果数据会准实时的落一份到离线数,通过这种方式做到程序一次开发、指标口径统一,数据统一。 本节内容,引用自:《37 手游基于 Flink CDC + Hudi 一体方案实践》 最佳实践 版本搭配 版本选择,这个问题可能会成为困扰大家的第一个绊脚石,下面是hudi中文社区推荐的版本适配: Chan 的提点,可能是 checkpoint的问题,于是做了设置 set execution.checkpointing.interval=10sec; 终于正常了 致此,Flink + Hudi 一体化方案的原型构建完成

    2K10发布于 2021-10-11
  • 来自专栏肉眼品世界

    数字化转型中数据底座“一体化

    一 数据是数字化转型的基础和引擎 数据是支撑企业数字化转型的数据底座,是提供数据驱动、精准决策的全方位技术支撑。 数据价值将经历数据统一化、数据资产化、数据业务化、数据生态化四个阶段。 2.数据 数据(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据的本质是由“➊数据存储架构+➋数据处理工具”组成的解决方案。 3.一体 一体架构最重要的一点,是实现“湖里”和“里”的数据/元数据能够无缝打通,并且“自由”流动。 湖里的“新鲜”数据可以流到里,甚至可以直接被数使用,而里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。 1+N数据体系:1个数据,N个租户、N个数据仓库、N个数据集市、N个数据创新实验室。

    2.8K20编辑于 2022-06-15
  • 来自专栏ApacheHudi

    Apache Hudi在华米科技的应用-一体化改造

    ,故大量未变化的历史冷数据会被重复存储多份,带来存储浪费; 为了解决上述问题,保证数的降本提效目标,我们决定引入数据来重构数架构,具体如下: •业务数据源实时接入Kafka,Flink接Kafka 构建ODS实时增量数据层,实时ODS增量层主要作用有两方面:•依赖ODS实时增量数据(保留原始格式,不做清洗转化)每日离线入来构建ODS层离线,ODS层数据后续作为业务数据的备份、满足DWD层全量数据重做需求 Hudi可以很好的在任务执行过程中进行小文件合并,大大降低了文件治理的复杂度,依据业务场景所需要的原子语义、小文件管理复杂度以及社区活跃度等方面综合考量,我们选择Hudi来进行一体化改造。 3. 鉴于目前业务实时需求并不是很高,故华米数在引入数据时暂采取Hudi + Spark离线更新模式来构建湖ODS原始层和DWD明细层,从测试对比和上线情况来看,收益总结如下: 4.1 成本方面 引入Hudi 总结与展望 从数据湖上线和测试过程来看,目前数据能解决我们的一些数痛点,但是依然存在一些问题。

    1.2K10发布于 2021-10-21
  • 来自专栏ClickHouse

    一体

    做一名主要从事OLAP内核研发,对现有理解做个总结;欢迎批评/指正/讨论 1 为什么一体这么热: 定义这里就不赘述了,大家可以去搜 我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题 ,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对本质的理解可能都不太一样,那又怎么谈一体呢。 我也一样,理解一定是片面的,我吸收的内容和我个人脑海呈现的画面也是不一样的,只能尽自己所能,表达清楚对一体的理解,和面对什么样的业务背景下,我们应该如何围绕我们的平台去做自己的一体。 Iceberg(Iceberg+hdfs/s3)就是,大家也可以去搜索下数据的定义 离在线一体,很多是表现为产品本身的一体化: 比如 元数据一体化,比如各类自家商业化引擎+一堆External/Multi /Unity/Unified Catalog 引擎一体化:引擎本身跟多事执行模式:如BSP、MPP混合,或者叫智能引擎,目前从文章来看ByConity已经实现; 存储一体化:所有数据统一存储和管理,具体存是否一致

    1.2K21编辑于 2024-11-26
  • 来自专栏超级架构师

    【数据】数据和仓库:范式简介

    博客系列 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和雪花 数据和仓库第 3 部分:Azure Synapse 观点 两种范式:数据与数据仓库 基于一些主要组件的选择 ,云分析解决方案可以分为两类:数据和数据仓库。 为了补充工具集,在过去十年左右开发了数据类型的解决方案。 根据 Wikipedia 中的一个非常广泛的定义,数据是一种可以以原始形式存储数据的解决方案。 数据:去中心化带来的自由 数据范式的核心原则是责任分散。借助大量工具,任何人都可以在访问管理的范围内使用任何数据层中的数据:青铜、白银和黄金。 集中式数据元数据管理工具越来越多,但使用它们取决于开发过程。技术很少强制这样做。 结论:数据和数据仓库 在这篇文章中,我们讨论了数据仓库和基于数据的解决方案的基本方法或范式的差异。

    1.2K10编辑于 2022-03-08
  • 来自专栏about云

    一体详解

    问题导读 1.什么是数据仓库、数据集市和数据? 2.一体化为什么诞生? 3.一体化是什么? 4.一体化的好处是什么? 那么接下来我们就来了解一下一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据? 由于这些原因,数据的许多功能尚未实现,并且在很多时候丧失了数据的优势。 2.一体化为什么诞生? 是否能有一种方案同时兼顾数据的灵活性和云数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本?那么一体化就是答案! 3.一体化是什么? 4.一体化的好处是什么? 一体能发挥出数据的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。

    5K21编辑于 2022-03-31
  • 【重磅发布】AllData数据中台核心功能:一体化平台

    「 AllData数据中台 - 主页 」「 一体化平台 - 功能描述 」1、AllData数据同步平台基于开源项目kyuubi核心技术建设。 2、在数据同步与处理方面,一体化平台展现了其强大的实力。它能够实时捕获并同步各类数据源的变化,确保数据的及时性和准确性。 3、在生态集成方面,一体化平台与Hive、Trino、Presto等大数据主流计算引擎深度整合,为用户提供了统一的数据存储和访问接口。 5、kyuubi一体化平台以其强大的功能、高效的处理能力、良好的生态集成以及卓越的存储与查询性能,成为了适用于各种大数据场景的存储解决方案。 「 一体化平台 - 模块功能汇总 」「 一体化平台 - 功能点展示 」「 查询 」统计概览「 查询 」管理中心-会话中心「 查询 」管理中心-操作中心「 查询 」管理中心-引擎中心

    63310编辑于 2025-03-01
  • 来自专栏腾讯大数据的专栏

    直播|分析型论坛

    随着技术的持续演进,数据仓库和数据方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化,湖上建仓、中数据降冷到、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配,各大厂商也陆续提出了自己的融合方案 通过本次分享,听众可以了解新一代融合架构、物化视图等方向的前沿技术。 演讲题目:天穹OLAP:实时融合平台架构实践 演讲提纲:本次分享将会介绍基于天穹 OLAP 平台的实时融合架构。主要内容包括: 1. 介绍数据与实时数之间的异同以及融合的意义、常见融合方案的优劣 2. 解析腾讯大数据是如何解决当前融合的痛点,以及如何将实时数演变成新的实时融合架构 3. 腾讯大数据后续如何更进一步升级融合架构 听众收益: 1. 了解当前数据及实时数的优劣,并了解腾讯大数据是如何解决当前融合的痛点 2.

    69220编辑于 2023-07-12
  • 来自专栏超级架构师

    【数据】数据和仓库:Databricks 和 Snowflake

    我们比较了 Databricks 和 Snowflake,以评估基于数据和基于数据仓库的解决方案之间的差异。 在这篇文章中,我们将介绍基于数据仓库和基于数据的云大数据解决方案之间的区别。 根据上一篇给出的定义,我们可以粗略的说Databricks是一个基于数据的工具,而Snowflake是一个基于数据仓库的工具。现在让我们更深入地研究这些工具。 Delta 文件格式是一种将数据库优势带入数据世界的方法。除其他外,该格式提供数据模式版本控制和数据库类型 ACID 事务。根据数据范式,文件格式本身是开放的,任何人都可以免费使用。 基于 Delta 格式和 Databricks 工具,该公司正在尝试为数据和数据仓库混合方法传播一种新颖的“Data Lakehouse”范式概念。 这是 Snowflake 向数据范式方向扩展其解决方案的方式之一。如今,它提供了用于实时数据摄取的高效工具等。

    3.3K10编辑于 2022-03-08
  • 来自专栏大数据学习与分享

    数据一体架构实践

    五、汽车之家一体架构实践案例分享 以下文字来源DataFunTalk,介绍了如何基于Apache Iceberg构建湖一体架构,将数据可见性提升至分钟级;从多维分析的角度来探讨引入Apache Iceberg 02 基于 Iceberg 的一体架构实践 一体的意义就是说我不需要看见,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。 ——贾扬清 1. 总结 通过对一体、流批融合的探索,我们分别做了总结。 一体 Iceberg 支持 Hive Metastore; 总体使用上与 Hive 表类似:相同数据格式、相同的计算引擎。 架构收益 - 准实时数 上方也提到了,我们支持准实时的入仓和分析,相当于是为后续的准实时数建设提供了基础的架构验证。准实时数的优势是一次开发、口径统一、统一存储,是真正的批流一体。 但是在架构层面上,这个意义还是很大的,后续我们能看到一些希望,可以把整个原来 “T + 1” 的数,做成准实时的数,提升数整体的数据时效性,然后更好地支持上下游的业务。

    3.7K32编辑于 2022-12-12
  • 来自专栏超级架构师

    【数据】数据和仓库:Azure Synapse 视角

    我们将讨论 Azure Synapse 在数据和数据仓库范式规模上的定位。 在本文中,我们将讨论 Microsoft 的 Azure Synapse Analytics 框架。 具体来说,我们关注如何在其中看到数据仓库和数据范式的区别。 为了熟悉这个主题,我建议你先阅读本系列的前几篇文章。 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和Showflake 数据和仓库第 3 部分:Azure Synapse 观点 我们现在考虑一个更新颖的解决方案,该解决方案与该主题的角度略有不同 当我们回到本系列第一篇文章中介绍的数据仓库和数据范式区别时,会出现一个有趣的细节。从费用的角度来看,这两种范式可以在 Synapse 环境组件中看到。 除 Synapse 专用 SQL 池数据仓库外,所有处理组件均按数据范例的典型使用量付费。所有工具甚至都有自动关机功能。

    1.6K20编辑于 2022-03-08
  • 吴炳锡:AI 时代下的一体化平台建设的思考

    随着企业数字化转型的深入推进,实时数据仓库与一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天,企业不仅需要处理海量的历史数据,更需要实时洞察数据变化,快速响应市场需求。 在第16届中国数据库技术大会(DTCC 2025)的「实时数一体应用实践(上)」专场中,Databend 联合创始人吴炳锡带来了主题为《AI 时代下的一体化平台建设的思考》的深度分享。 本文基于演讲内容整理而成,不仅回顾了从传统数据库到现代一体化架构的技术演进历程,更重要的是提出了面向 AI 时代的数据平台建设新思路。 的数据同步/共享 Databend 通过存算分离架构实现了真正意义上的一体化数据同步与共享。 存算分离建设成效 Databend 作为一家成立仅四年半的新兴公司,在建设方面已经取得了令人瞩目的成效。2023 年,一个重要客户的数据规模让团队深感震撼。

    54011编辑于 2025-09-02
  • 来自专栏Apache Doris

    数据无界、无界,Apache Doris 一体典型场景实战指南(下篇)

    导读: 一体是将数据和数据仓库的优势相结合的数据管理系统。Apache Doris 结合自身特性,提出了【数据无界】和【无界】核心理念。 在上一篇文章中,全面介绍了一体演进历程以及 Apache Doris 一体解决方案,具体查阅:(上篇)从 0 到 1 构建湖体系, Apache Doris 一体解决方案全面解读。 本文将进一步深入,聚焦于 分析加速、多源联邦分析、数据处理 这三个典型场景,分享 Apache Doris 一体方案的最佳实践。 分析加速场景在该场景中,以 Apache Doris 作为计算引擎,对中数据进行查询分析加速。01 缓存加速针对 Hive、Iceberg 等系统,用户可以配置本地磁盘缓存。 、Kyuubi 技术栈快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级网易游戏如何基于 Apache Doris 构建全新一体架构

    1.4K10编辑于 2025-02-21
  • 来自专栏最新最全的大数据技术体系

    数据跟数的区别

    1.2K20编辑于 2021-12-07
  • 快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级

    原有分离架构,由离线数据和实时数组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。 数据无缝集成、自由流转 : 结合 Doris 异步物化视图能力和内置作业调度功能,用户可以便捷的基于 Doris 对数据进行分层加工处理,从而简化数据处理的复杂度。 统一数据的构建和计算引擎 : Apache Doris 支持主流的数据写入能力,用户可以基于 Doris 进行统一的数据写入、处理及分析,形成一体架构下的链路闭环。 基于 Apache Doris 的一体架构快手基于 Apache Doris 升级为一体分析平台,新架构如图所示:从下至上,主要分为以下几个层级:数据加工层:数据源数据同步到数据(Hive/ 结束语引入 Apache Doris,使快手成功从分离架构升级到一体架构。

    1.7K10编辑于 2024-09-27
  • 数据 vs 数据仓库:大厂为何总爱“并用”?

    数据团队常常陷入两难选择:用数据仓库做报表快,但放不进原始日志和图片;用数据存万物成本低,但查个基础指标却很慢。当95%的企业还在纠结“选还是选”,头部大厂早已走向第三条路:一体架构。 四、一体架构的优势随着企业对数据实时性、多场景复用的要求提升,融合成为必然趋势。新一代Lakehouse 架构如何突破传统局限? (3)>50人的中大型团队:直接规划一体架构,选择Snowflake Data Cloud、Databricks Lakehouse等云原生解决方案,降低技术栈复杂度。 当企业纠结于“选还是选”时,需回归两个核心问题:1.业务需求维度:当前阶段需要支持固定报表还是探索性分析?是否存在AI/实时分析需求? 的界限正逐渐模糊,而能够根据业务动态选择技术组合的能力,才是企业的核心数据竞争力。

    48810编辑于 2025-09-05
  • 来自专栏DevOps

    一体:基于Iceberg的一体架构在B站的实践

    本文主要介绍为了应对以上挑战,我们在一体方向上的一些探索和实践。 Why?为什么需要一体 在讨论这个问题前,我们可能首先要明确两个概念:什么是数据?什么是数据仓库? 一体是近两年大数据一个非常热门的方向,如何在同一套技术架构上同时保持的灵活性和的高效性是其中的关键。 在B站,基于我们之前的技术栈和实际的业务场景,我们选择了第二个方向,从数据架构向一体演进。 B站的一体实践 对于B站的一体架构,我们想要解决的问题主要有两个:一是鉴于从Hive表出到外部系统(ClickHouse、HBase、ES等)带来的复杂性和存储开发等额外代价,尽量减少这种场景出的必要性 我们基于Iceberg构建了我们的一体架构,在具体介绍B站的一体架构之前,我觉得有必要先讨论清楚两个问题,为什么Iceberg可以构建湖一体架构,以及我们为什么选择Iceberg?

    2.4K21编辑于 2024-03-29
  • 小红书架构的跃迁之路

    Apache Impala Committer本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后,如何实现极速分析架构 结合 Min-Max 索引特性,Iceberg 能在前端(FE)执行谓词下推,从而显著提升数据分析的性能。 数据管理平台 (DLF): 通过分析审计日志,智能推断出自助分析数据集中的表的候选排序列。 Data Cache在数据分析场景中,StarRocks作为OLAP查询引擎,需要高效地扫描存储在对象存储(如OSS)中的 Parquet 文件。 未来规划未来规划中,我们将探索结合 StarRocks 和 Paimon 的近实时分析架构,围绕公司业务需求,进一步优化近实时链路的处理能力,并针对具有主键(PK)需求的湖上分析场景,制定更高效的优化方案

    72110编辑于 2025-03-03
领券