首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Apache Doris

    分析|浙江霖梓基于 Doris + Paimon 打造实时离线一体化架构

    Doris + Paimon 的实时/离线一体化架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。 ,大数据业务系统的局限逐渐暴露:报表系统计算缓慢、运维成本持续攀升、组件间的高度耦合导致架构稳定性较差等,严重影响了大数据系统产出效率,因此浙江霖梓引入 Doris+Paimon 重新构建了实时/离线一体化架构 基于 Apache Doris 的实时/离线一体化架构经过七个月的设计与实施,最终完成了基于 Apache Doris 离线 / 实时一体化统一架构。 #开启⾏存"store_row_column" = "true" 总结与规划截至目前,基于 Doris + Paimon 的实时/离线一体化架构已为反欺诈策略、用户⾏为分析、业务监控、 BI 应用等若干系统提供了服务 打通存量数据与 Doris 数的对接,为日后 PB 级数据的分析做好充分准备。

    1.1K20编辑于 2025-02-13
  • 来自专栏腾讯云存储

    直播预告| Lakehouse 一体化架构论坛

    在大模型时代,企业将如何进行一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战? 让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit:OLAP 线上峰会中,「Lakehouse 一体化架构」论坛上看头部企业如何做! 精彩内容,扫码报名,免费参会 本次Lakehouse一体化架构论坛的出品人程力老师,腾讯云数据存储的负责人,他对数据存储架构有着深入的理解与丰富的实践经验。 演讲议题:下一代加速存储 GooseFS 在实时 OLAP 搜索场景中的实践与优化 演讲嘉宾:于飏 腾讯云 COS 对象存储团队资深高级工程师 个人介绍:硕士毕业于西安电子科技大学,一直专注云端对象存储相关技术的研发工作 演讲摘要:腾讯云对象存储中心推出的 GooseFS 加速存储产品,从最初加速应用场景下的海量吞吐与数据本地化调度,已经扩展演进到了实时 OLAP 引擎场景。

    52910编辑于 2024-06-16
  • 来自专栏ApacheHudi

    Flink + Hudi,构架一体化解决方案

    此过程不用执行扫描整个源表的查询 Hudi的优势 •HDFS中的可伸缩性限制•Hadoop中数据的快速呈现•支持对于现有数据的更新和删除•快速的ETL和建模 以上内容主要引用于:《Apache Hudi 详解》 新架构与一体 通过一体、流批一体,准实时场景下做到了:数据同源、同计算引擎、同存储、同计算口径。 实时数的每一层结果数据会准实时的落一份到离线数,通过这种方式做到程序一次开发、指标口径统一,数据统一。 本节内容,引用自:《37 手游基于 Flink CDC + Hudi 一体方案实践》 最佳实践 版本搭配 版本选择,这个问题可能会成为困扰大家的第一个绊脚石,下面是hudi中文社区推荐的版本适配: Chan 的提点,可能是 checkpoint的问题,于是做了设置 set execution.checkpointing.interval=10sec; 终于正常了 致此,Flink + Hudi 一体化方案的原型构建完成

    2K10发布于 2021-10-11
  • 来自专栏肉眼品世界

    数字化转型中数据底座“一体化

    2.数据 数据(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据的本质是由“➊数据存储架构+➋数据处理工具”组成的解决方案。 3.一体 一体架构最重要的一点,是实现“湖里”和“里”的数据/元数据能够无缝打通,并且“自由”流动。 湖里的“新鲜”数据可以流到里,甚至可以直接被数使用,而里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。 三 数据底座设计 1.数据功能架构 2.数据流转架构 由统一的租户(企业集团层面)进行数据的归集,并加工成标准统一的数据集或指标。基于租户权限自动将数据分发给相应的租户。 1+N数据体系:1个数据,N个租户、N个数据仓库、N个数据集市、N个数据创新实验室。

    2.8K20编辑于 2022-06-15
  • 来自专栏ApacheHudi

    Apache Hudi在华米科技的应用-一体化改造

    ,故大量未变化的历史冷数据会被重复存储多份,带来存储浪费; 为了解决上述问题,保证数的降本提效目标,我们决定引入数据来重构数架构,具体如下: •业务数据源实时接入Kafka,Flink接Kafka 2. Hudi可以很好的在任务执行过程中进行小文件合并,大大降低了文件治理的复杂度,依据业务场景所需要的原子语义、小文件管理复杂度以及社区活跃度等方面综合考量,我们选择Hudi来进行一体化改造。 3. 鉴于目前业务实时需求并不是很高,故华米数在引入数据时暂采取Hudi + Spark离线更新模式来构建湖ODS原始层和DWD明细层,从测试对比和上线情况来看,收益总结如下: 4.1 成本方面 引入Hudi 总结与展望 从数据湖上线和测试过程来看,目前数据能解决我们的一些数痛点,但是依然存在一些问题。

    1.2K10发布于 2021-10-21
  • 来自专栏ClickHouse

    一体

    做一名主要从事OLAP内核研发,对现有理解做个总结;欢迎批评/指正/讨论 1 为什么一体这么热: 定义这里就不赘述了,大家可以去搜 我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题 ,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对本质的理解可能都不太一样,那又怎么谈一体呢。 2 分析角度分类: 我想我们首先应该对数据组件分类,然后从应用的角度给尝试他们分类;欢迎大家批评改正: 从数据引擎角度,我们可以将他们分为:数据库,数,数据。 Iceberg(Iceberg+hdfs/s3)就是,大家也可以去搜索下数据的定义 离在线一体,很多是表现为产品本身的一体化: 比如 元数据一体化,比如各类自家商业化引擎+一堆External/Multi 负责元数据和数据格式,Trino负责加速,StarRocks 负责MPP加速, 即加速;再加上Doris 自身的MPP能力,也有了批任务回写的能力,进行轻量化ETL; 2 从实时BI报表(离线+实时

    1.2K21编辑于 2024-11-26
  • 来自专栏超级架构师

    【数据】数据和仓库:范式简介

    博客系列 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和雪花 数据和仓库第 3 部分:Azure Synapse 观点 两种范式:数据与数据仓库 基于一些主要组件的选择 ,云分析解决方案可以分为两类:数据和数据仓库。 为了补充工具集,在过去十年左右开发了数据类型的解决方案。 根据 Wikipedia 中的一个非常广泛的定义,数据是一种可以以原始形式存储数据的解决方案。 数据:去中心化带来的自由 数据范式的核心原则是责任分散。借助大量工具,任何人都可以在访问管理的范围内使用任何数据层中的数据:青铜、白银和黄金。 集中式数据元数据管理工具越来越多,但使用它们取决于开发过程。技术很少强制这样做。 结论:数据和数据仓库 在这篇文章中,我们讨论了数据仓库和基于数据的解决方案的基本方法或范式的差异。

    1.2K10编辑于 2022-03-08
  • 来自专栏about云

    一体详解

    问题导读 1.什么是数据仓库、数据集市和数据2.一体化为什么诞生? 3.一体化是什么? 4.一体化的好处是什么? 那么接下来我们就来了解一下一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据? 由于这些原因,数据的许多功能尚未实现,并且在很多时候丧失了数据的优势。 2.一体化为什么诞生? 是否能有一种方案同时兼顾数据的灵活性和云数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本?那么一体化就是答案! 3.一体化是什么? 4.一体化的好处是什么? 一体能发挥出数据的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。

    5.1K21编辑于 2022-03-31
  • 【重磅发布】AllData数据中台核心功能:一体化平台

    「 AllData数据中台 - 主页 」「 一体化平台 - 功能描述 」1、AllData数据同步平台基于开源项目kyuubi核心技术建设。 2、在数据同步与处理方面,一体化平台展现了其强大的实力。它能够实时捕获并同步各类数据源的变化,确保数据的及时性和准确性。 3、在生态集成方面,一体化平台与Hive、Trino、Presto等大数据主流计算引擎深度整合,为用户提供了统一的数据存储和访问接口。 5、kyuubi一体化平台以其强大的功能、高效的处理能力、良好的生态集成以及卓越的存储与查询性能,成为了适用于各种大数据场景的存储解决方案。 「 一体化平台 - 模块功能汇总 」「 一体化平台 - 功能点展示 」「 查询 」统计概览「 查询 」管理中心-会话中心「 查询 」管理中心-操作中心「 查询 」管理中心-引擎中心

    65510编辑于 2025-03-01
  • 来自专栏腾讯大数据的专栏

    直播|分析型论坛

    随着技术的持续演进,数据仓库和数据方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化,湖上建仓、中数据降冷到、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配,各大厂商也陆续提出了自己的融合方案 通过本次分享,听众可以了解新一代融合架构、物化视图等方向的前沿技术。 介绍数据与实时数之间的异同以及融合的意义、常见融合方案的优劣 2. 解析腾讯大数据是如何解决当前融合的痛点,以及如何将实时数演变成新的实时融合架构 3. 腾讯大数据后续如何更进一步升级融合架构 听众收益: 1. 了解当前数据及实时数的优劣,并了解腾讯大数据是如何解决当前融合的痛点 2. 演讲题目:MaxCompute一体方案新能力 演讲提纲: 1. MaxCompute 增量处理框架揭秘 2. MaxCompute SQL引擎物化视图新能力介绍 3.

    71720编辑于 2023-07-12
  • 来自专栏超级架构师

    【数据】数据和仓库:Databricks 和 Snowflake

    我们比较了 Databricks 和 Snowflake,以评估基于数据和基于数据仓库的解决方案之间的差异。 在这篇文章中,我们将介绍基于数据仓库和基于数据的云大数据解决方案之间的区别。 根据上一篇给出的定义,我们可以粗略的说Databricks是一个基于数据的工具,而Snowflake是一个基于数据仓库的工具。现在让我们更深入地研究这些工具。 Delta 文件格式是一种将数据库优势带入数据世界的方法。除其他外,该格式提供数据模式版本控制和数据库类型 ACID 事务。根据数据范式,文件格式本身是开放的,任何人都可以免费使用。 基于 Delta 格式和 Databricks 工具,该公司正在尝试为数据和数据仓库混合方法传播一种新颖的“Data Lakehouse”范式概念。 这是 Snowflake 向数据范式方向扩展其解决方案的方式之一。如今,它提供了用于实时数据摄取的高效工具等。

    3.3K10编辑于 2022-03-08
  • 来自专栏超级架构师

    【数据】数据和仓库:Azure Synapse 视角

    我们将讨论 Azure Synapse 在数据和数据仓库范式规模上的定位。 在本文中,我们将讨论 Microsoft 的 Azure Synapse Analytics 框架。 具体来说,我们关注如何在其中看到数据仓库和数据范式的区别。 为了熟悉这个主题,我建议你先阅读本系列的前几篇文章。 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和Showflake 数据和仓库第 3 部分:Azure Synapse 观点 我们现在考虑一个更新颖的解决方案,该解决方案与该主题的角度略有不同 与 Azure Data Lake Storage Gen2 云存储服务和 Azure AD 权限管理的自然连接 据我所知,类似的整体框架是独一无二的,尚未由任何其他云提供商提供。 除 Synapse 专用 SQL 池数据仓库外,所有处理组件均按数据范例的典型使用量付费。所有工具甚至都有自动关机功能。

    1.6K20编辑于 2022-03-08
  • 来自专栏大数据学习与分享

    数据一体架构实践

    2)缓慢的性能 随着数据中数据规模的增加,传统查询引擎的性能通常会变慢。一些瓶颈包括元数据管理、不正确的数据分区等。 02 基于 Iceberg 的一体架构实践 一体的意义就是说我不需要看见,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。 ——贾扬清 1. 2. 表管理 支持 Primary key(PR1978) 开启 V2 版本:'iceberg.format.version' = '2' 7. 2. 业务收益 3. 架构收益 - 准实时数 上方也提到了,我们支持准实时的入仓和分析,相当于是为后续的准实时数建设提供了基础的架构验证。

    3.8K32编辑于 2022-12-12
  • 吴炳锡:AI 时代下的一体化平台建设的思考

    随着企业数字化转型的深入推进,实时数据仓库与一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天,企业不仅需要处理海量的历史数据,更需要实时洞察数据变化,快速响应市场需求。 在第16届中国数据库技术大会(DTCC 2025)的「实时数一体应用实践(上)」专场中,Databend 联合创始人吴炳锡带来了主题为《AI 时代下的一体化平台建设的思考》的深度分享。 本文基于演讲内容整理而成,不仅回顾了从传统数据库到现代一体化架构的技术演进历程,更重要的是提出了面向 AI 时代的数据平台建设新思路。 的数据同步/共享 Databend 通过存算分离架构实现了真正意义上的一体化数据同步与共享。 存算分离建设成效 Databend 作为一家成立仅四年半的新兴公司,在建设方面已经取得了令人瞩目的成效。2023 年,一个重要客户的数据规模让团队深感震撼。

    56111编辑于 2025-09-02
  • 来自专栏Apache Doris

    数据无界、无界,Apache Doris 一体典型场景实战指南(下篇)

    导读: 一体是将数据和数据仓库的优势相结合的数据管理系统。Apache Doris 结合自身特性,提出了【数据无界】和【无界】核心理念。 在上一篇文章中,全面介绍了一体演进历程以及 Apache Doris 一体解决方案,具体查阅:(上篇)从 0 到 1 构建湖体系, Apache Doris 一体解决方案全面解读。 本文将进一步深入,聚焦于 分析加速、多源联邦分析、数据处理 这三个典型场景,分享 Apache Doris 一体方案的最佳实践。 分析加速场景在该场景中,以 Apache Doris 作为计算引擎,对中数据进行查询分析加速。01 缓存加速针对 Hive、Iceberg 等系统,用户可以配置本地磁盘缓存。 、Kyuubi 技术栈快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级网易游戏如何基于 Apache Doris 构建全新一体架构

    1.5K10编辑于 2025-02-21
  • 来自专栏最新最全的大数据技术体系

    数据跟数的区别

    1.2K20编辑于 2021-12-07
  • 快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级

    原有分离架构,由离线数据和实时数组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。 数据无缝集成、自由流转 : 结合 Doris 异步物化视图能力和内置作业调度功能,用户可以便捷的基于 Doris 对数据进行分层加工处理,从而简化数据处理的复杂度。 统一数据的构建和计算引擎 : Apache Doris 支持主流的数据写入能力,用户可以基于 Doris 进行统一的数据写入、处理及分析,形成一体架构下的链路闭环。 基于 Apache Doris 的一体架构快手基于 Apache Doris 升级为一体分析平台,新架构如图所示:从下至上,主要分为以下几个层级:数据加工层:数据源数据同步到数据(Hive/ 结束语引入 Apache Doris,使快手成功从分离架构升级到一体架构。

    1.8K10编辑于 2024-09-27
  • 数据 vs 数据仓库:大厂为何总爱“并用”?

    数据团队常常陷入两难选择:用数据仓库做报表快,但放不进原始日志和图片;用数据存万物成本低,但查个基础指标却很慢。当95%的企业还在纠结“选还是选”,头部大厂早已走向第三条路:一体架构。 四、一体架构的优势随着企业对数据实时性、多场景复用的要求提升,融合成为必然趋势。新一代Lakehouse 架构如何突破传统局限? 2.Lakehouse架构解析新一代一体架构,如Delta Lake、Apache Iceberg等,通过统一元数据层与存储格式,实现了以下优势:(1)一份数据多场景复用:报表分析与AI训练共享同一数据源 当企业纠结于“选还是选”时,需回归两个核心问题:1.业务需求维度:当前阶段需要支持固定报表还是探索性分析?是否存在AI/实时分析需求? 的界限正逐渐模糊,而能够根据业务动态选择技术组合的能力,才是企业的核心数据竞争力。

    51410编辑于 2025-09-05
  • 来自专栏DevOps

    一体:基于Iceberg的一体架构在B站的实践

    2.对于未出的数据,用户无论是进行数据探索还是使用BI报表,都还受SQL on Hadoop本身性能所限,和用户期望的交互式响应有很大差距。 本文主要介绍为了应对以上挑战,我们在一体方向上的一些探索和实践。 Why?为什么需要一体 在讨论这个问题前,我们可能首先要明确两个概念:什么是数据?什么是数据仓库? 一体是近两年大数据一个非常热门的方向,如何在同一套技术架构上同时保持的灵活性和的高效性是其中的关键。 2.为什么选择Iceberg? 具体详情可查询参考文献[2](通过索引加速一体分析)。

    2.5K21编辑于 2024-03-29
  • 来自专栏机器之心

    才是数据智能的未来?那你必须了解下国产唯一开源

    一体作为新一代大数据技术架构,将逐渐取代单一数据和数架构,成为大数据架构的演进方向。当前已有 DeltaLake、Iceberg、Hudi 等国外开源的数据存储框架。 2.Hadoop 数。目前有大量的企业使用 Hadoop + Hive 的方式搭建数据仓库。 LakeSoul 针对对象存储做了专门的性能优化,在数据湖上构建出完整的实时数功能,支持数据的实时更新写入。一体化的方式大幅简化基础设施的使用门槛,并极大提升资源利用效率和性能。 3. LakeSoul 通过统一的实时、批量存储的核心能力,构建了流批一体、一体、分析智能一体的现代数据智能架构。 2.

    1.2K30编辑于 2022-07-18
领券