首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据学习与分享

    数据一体架构实践

    五、汽车之家一体架构实践案例分享 以下文字来源DataFunTalk,介绍了如何基于Apache Iceberg构建湖一体架构,将数据可见性提升至分钟级;从多维分析的角度来探讨引入Apache Iceberg 02 基于 Iceberg 的一体架构实践 一体的意义就是说我不需要看见,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。 ——贾扬清 1. 3. 入 - 支持代理用户 第二步是内部的实践,对接现有预算体系、权限体系。 业务收益 3. 架构收益 - 准实时数 上方也提到了,我们支持准实时的入仓和分析,相当于是为后续的准实时数建设提供了基础的架构验证。 但是在架构层面上,这个意义还是很大的,后续我们能看到一些希望,可以把整个原来 “T + 1” 的数,做成准实时的数,提升数整体的数据时效性,然后更好地支持上下游的业务。

    3.8K32编辑于 2022-12-12
  • vivo 架构的性能提升之旅

    ClickHouse 相关痛点虽然 ClickHouse 在宽表应用场景中表现优异,但在一体架构下的加速能力有限,且数据导入期间的存储成本偏高,这成为用户特别关注的问题。 StarRocks 优势StarRocks 在加速方面具备显著优势,支持标准 SQL 并兼容 MySQL 协议。 在查询层,主要涉及即席分析、BI 报表、一体等应用,同时涵盖基础建设和业务系统。 查询加速架构上图展示了最新的查询加速架构。在数据仓库方面,我们主要采用 Hive,其中 90% 以上的表使用 ORC 格式,约 7%–8% 为 Text 格式。 此外,我们希望实现表与内表的联邦查询,以提升查询效率并优化数据处理流程。

    48200编辑于 2025-03-25
  • 小红书架构的跃迁之路

    Apache Impala Committer本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后,如何实现极速分析架构 与原有架构相比,湖上分析架构的 P90 查询性能提升了 3 倍,目前查询 响应时间 稳定在 10 秒以内。 测试结果表明,与原有架构相比, 湖上分析架构的 P90 查询性能实现了 3 倍的提升。排序键 保鲜能力为了应对随着时间推移数据集查询性能下降的问题,我们设计了一套湖上分析数据集智能优化的解决方案。 数据管理平台 (DLF): 通过分析审计日志,智能推断出自助分析数据集中的表的候选排序列。 未来规划未来规划中,我们将探索结合 StarRocks 和 Paimon 的近实时分析架构,围绕公司业务需求,进一步优化近实时链路的处理能力,并针对具有主键(PK)需求的湖上分析场景,制定更高效的优化方案

    76110编辑于 2025-03-03
  • 来自专栏肉眼品世界

    7000字,详解一体架构

    这里需要注意的是,“一体”并不等同于“数据”+“数据”,这是一个极大的误区,现在很多公司经常会同时搭建数、数据两种存储架构,一个大的数拖着多个小的数据,这并不意味着这家公司拥有了一体的能力 随着当前大数据技术应用趋势,企业对单一的数据和数架构并不满意。 一体是一种新型开放式架构,将数据和数据仓库的优势充分结合,它构建在数据低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能,打通数据和数据仓库两套体系,让数据和计算在之间自由流动 07 一体落地路径与成本 A:现在大多数企业都已经有了自己的一套大数据架构,他们如何基于已有的架构落地一体?有哪些可行的落地路径?成本可能主要会来自哪里? 现在是采用一体的好时机吗? Q:现在大多数企业都还没有用到一体的新架构,他们要么选择了数据方案,要么选择了数方案。一体作为一个新兴架构,很多企业目前还在早期探索阶段。

    4.9K30编辑于 2022-04-19
  • 快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级

    原有分离架构,由离线数据和实时数组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。 统一数据的构建和计算引擎 : Apache Doris 支持主流的数据写入能力,用户可以基于 Doris 进行统一的数据写入、处理及分析,形成一体架构下的链路闭环。 基于 Apache Doris 的一体架构快手基于 Apache Doris 升级为一体分析平台,新架构如图所示:从下至上,主要分为以下几个层级:数据加工层:数据源数据同步到数据(Hive/ 接下来重点介绍整个一体架构中,缓存服务和自动物化服务方面的功能和实践经验。 结束语引入 Apache Doris,使快手成功从分离架构升级到一体架构

    1.8K10编辑于 2024-09-27
  • 新兴数据手册·从分层架构到数据架构(2025):数据仓库分层的概念与设计

    《新兴数据设计与实践手册·从分层架构到数据架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据架构的设计与实践。 手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数分层设计 本文为系列文章首篇,详细剖析了数据仓库分层的概念与设计,希望能够为相关从业者提供数据设计与实践的系统指引。 而随着数据量的增加和非结构化数据和实时处理需求的增加,ETL架构也逐步被淘汰演变为EtLT架构(参见ELT已死,EtLT才是现代数据处理架构的终点!),以更好地适应多样化的数据源和实时场景。 因此,EtLT架构已经成为现在技术的主流架构。 目前的架构基本都在数数据仓库的某些字段内容可能需要基于多个源字段的逻辑关系计算得出,可以书写相应的SQL完成整体开发。

    63310编辑于 2025-10-15
  • 来自专栏DevOps

    一体:基于Iceberg的一体架构在B站的实践

    一体是近两年大数据一个非常热门的方向,如何在同一套技术架构上同时保持的灵活性和的高效性是其中的关键。 SQL,他们基于兼容Spark API的闭源Photon内核和DeltaLake存储格式以及S3对象存储的一体架构,宣称在TPC-DS Benchmark上性能超过专门的云数据仓库SnowFlake 在B站,基于我们之前的技术栈和实际的业务场景,我们选择了第二个方向,从数据架构一体演进。 我们基于Iceberg构建了我们的一体架构,在具体介绍B站的一体架构之前,我觉得有必要先讨论清楚两个问题,为什么Iceberg可以构建湖一体架构,以及我们为什么选择Iceberg? Magnus是我们一体架构的核心组件,它负责管理优化所有的Iceberg表中的数据。

    2.5K21编辑于 2024-03-29
  • 来自专栏Apache Doris

    分析|浙江霖梓基于 Doris + Paimon 打造实时离线一体化架构

    导读:浙江霖梓早期使用 CDH 产品套件搭建了大数据系统,面临业务逻辑冗余、查询效率低下等问题,基于 Apache Doris 进行整体架构与表结构的重构,并基于一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体化架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。 /离线一体化架构,为反欺诈策略、用户⾏为分析、BI 应用等若干系统提供了高效准确的服务,实现了查询提速 30 倍、资源成本节省 67% 等显著成效。 基于 Apache Doris 的实时/离线一体化架构经过七个月的设计与实施,最终完成了基于 Apache Doris 离线 / 实时一体化统一架构。 未来,浙江霖梓将持续扩大 Apache Doris 在内部系统的使用范围,并将对数据能力、智能实时应用进行探索及应用:全面接入数据:逐渐扩大 Doris + Paimon ⼀体化架构的应用范围,

    1.1K20编辑于 2025-02-13
  • 来自专栏ApacheHudi

    通用数据一体架构正当时

    随着像“你可能认识的人[2]”这样的数据科学/机器学习应用程序的构建,我们稳步转向Apache Avro上的数据[3],Apache Pig可以访问MapReduce作为分析、报告、机器学习和数据应用程序的事实来源 通用数据一体架构 通用数据一体架构将数据一体置于数据基础架构的中心提供快速、开放且易于管理的商业智能、数据科学等事实来源。 通过采用通用数据一体架构,组织可以克服以前无法克服的脱节架构的挑战,该架构和仓库之间不断复制数据。 我相信在未来的道路上通用数据一体架构也可以建立在为这些需求提供类似或更好的支持的未来技术之上。 最后 Onetable 是通用数据一体架构的另一个构建块。 借助通用数据一体架构,他们的分析师可以继续使用仓库对一体中存储的数据进行查询。

    90010编辑于 2024-01-17
  • 来自专栏肉眼品世界

    基于一体构建数据中台架构

    数据仓库存储结构化的数据,适用于快速的BI和决策支撑,而数据可以存储任何格式的数据,往往通过挖掘能够发挥出数据的更大作为,因此在一些场景上二者的并存可以给企业带来更多收益。 一体,又被称为Lake House,其出发点是通过数据仓库和数据的打通和融合,让数据流动起来,减少重复建设。 Lake House架构最重要的一点,是实现数据仓库和数据的数据/元数据无缝打通和自由流动。 湖里的“显性价值”数据可以流到里,甚至可以直接被数使用;而里的“隐性价值”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。 一体技术借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放,正成为企业数字化转型过程中的备受关注焦点。

    1.6K10编辑于 2022-11-29
  • 来自专栏ApacheHudi

    京东流量资产基于架构的落地实践

    本文将深入剖析京东流量资产架构从 Lambda 架构迈向一体架构的变革之旅,包括面临的挑战、创新的解决方案、显著的收益以及未来的发展方向。 今天的介绍会围绕下面四点展开: 1. 背景与痛点 2. 挑战与优化 3. 收益与表现 4. 为解决 Lambda 架构的痛点,京东引入一体架构架构具有诸多特性,如支持数据更新、存储分离,能处理结构化和非结构化等多种数据类型。 03 显著成效:架构升级的收益 1. 数据时效性飞跃 一体架构升级后,数据时效性从 T+1 提升到 15 分钟,SLA 从凌晨两点半提前到零点半。 京东流量资产一体架构的升级实践,成功解决了传统架构的诸多问题,取得了显著的成效。

    31922编辑于 2025-08-18
  • 来自专栏肉眼品世界

    一体架构构建与平台应用实践

    数据适合存储非结构化的、信息密度低的、未经清洗的数据。例如生产中我们获取到的日志信息、长文本信息等都可以直接放到数据中。 曾经有一段时间,大家对于大数据的存储形式分裂为了两派。 不断询问是选择数据,还是选择数据仓库? 选择数据,才能拥有数据的多样与灵活,有利于将不同的数据组合在一起,发现新的规律。 一体,即打通数据仓库和数据两套体系,让数据和计算在之间自由流动,从而构建一个完整的有机的大数据技术生态体系。 下面这份PPT材料来自DAMA中国,专题分享活动《一体,构建企业数字化新基座》,作者数据科学家毛亮坚老师,主要介绍了大数据平台架构演进、详细阐述一体架构构建与探索思路、一体化平台应用实践案例 、最后提出了一体化平台未来发展趋势,推荐给大家阅读。

    1.8K10编辑于 2022-03-25
  • 来自专栏随手写个文章

    大数据架构系列:如何理解一体

    图片以上图片来自阿里云参考1 3 5 Why:业界为什么要做一体?我来形象地描述一下:集合两者的优势,像数据仓库一样管理的数据,像数据一样开放的数据仓库。 目前业内的一体的架构一般都叫基于某某数据仓库的一体架构,用户会把热数据(频繁查询)放在数据仓库中,无论在存储和计算上都有大量的优化,计算速度快、成本高;冷数据放在数据中,计算慢、成本低,当用户要查询时 链接2 深度对比 Delta、Iceberg 和 Hudi 三大开源数据方案。链接3 2万字详解数据:概念、特征、架构与案例。链接4 详解数据,概念、特征、架构、方案、场景以及建湖全过程。 链接5 4万字全面掌握数据库、数据仓库、数据集市、数据、数据中台。链接6 大数据发展20年,“一体”是终局?链接7 B站基于Iceberg的一体架构实践。链接8 亚马逊一体。 链接9 构建切实有效的一体架构。 链接

    3K102编辑于 2022-10-17
  • 来自专栏ClickHouse

    一体

    做一名主要从事OLAP内核研发,对现有理解做个总结;欢迎批评/指正/讨论 1 为什么一体这么热: 定义这里就不赘述了,大家可以去搜 我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题 ,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对本质的理解可能都不太一样,那又怎么谈一体呢。 Iceberg(Iceberg+hdfs/s3)就是,大家也可以去搜索下数据的定义 离在线一体,很多是表现为产品本身的一体化: 比如 元数据一体化,比如各类自家商业化引擎+一堆External/Multi 最具代表的产品就是 AWS S3,腾讯云COS ... 6 Why一体 问题: 能力不对等:不同引擎的使用场景、功能支持、性能特点、优化策略、最佳实践..不同; 选型困难:多个引擎意味着技术选型存在多样性 3 从融合角度出发:数据服务统一 Doris统一接受写读服务,数据进行冷热分层,热数据本地,冷数据落入,既然是融合的,就需要将冷数据转换为Iceberg Parquet等格式入,然后再利用union

    1.2K21编辑于 2024-11-26
  • 来自专栏大数据成神之路

    Apache Paimon毕业,架构的未来发展趋势!

    主要目的是透过当前的各个框架对领域的发展做一个基本的判断和预测。 框架能力模型 领域开源的几个核心框架,基本着眼点都在「同一批流一体存储服务」。 那么领域的框架应该具备的能力包含: 流式读写 应该具备秒级的数据数据写入和数据增量消费能力。 并且如果的框架想要取代Kafka的部分能力,这个RPS要求在千万级别,但是明显目前是达不到的。 在高RPS的业务场景中,架构不是一个很好的选择,因为性能瓶颈明显,什么都想做的结果就是什么都不能做到极致, 批式读写 在批读和批写方面应该完全涵盖Hive的能力,并且提供分区并发更新、主键更新等额外能力 此外,领域的框架需要探索例如部分列更新、维度表等能力,这些能力也是的框架明显优于传统数据方向框架的标志,目前在各个框架都有在推进中,十分期待。 最后 领域发展趋势很好,在国内的几家大厂已经有了成熟的应用,并且在替代原有链路上在进行积极的探索。 未来大家会看到,领域框架的能力越强,传统的数据开发的理论和开发模式越容易被替代。

    86910编辑于 2024-05-07
  • 来自专栏【腾讯云开发者】

    大数据架构系列:如何理解一体?

    业内目前分享出来的信息来看,主要还是为了替换掉老的Lambda和Kappa架构,想通过一个相对简单的架构进行降本提效。 价值的交点 (以上图片来自阿里云) How:业界怎么做一体? 目前业内的一体的架构一般都叫基于某某数据仓库的一体架构,用户会把热数据(频繁查询)放在数据仓库中,无论在存储和计算上都有大量的优化,计算速度快、成本高;冷数据放在数据中,计算慢、成本低,当用户要查询时 真实业务场景可能是同一套架构里面会支持上述两种实现。也有一些一体的架构中没有数据仓库产品,仅用了Presto作为查询加速(火山引擎、Bilibili),不过整体架构大致也差不多。 ,的作用在于提速,的作用在支持海量的数据并发写入和海量存储;且设计者希望尽量降低架构的复杂度,提高效率。 7.B站基于Iceberg的一体架构实践 8.亚马逊一体 9.构建切实有效的一体架构  作者简介 叶强盛 腾讯云开发者社区【技思广益·腾讯技术人原创集】作者 腾讯后台开发工程师,目前负责腾讯天穹大数据

    5.9K20编辑于 2022-09-13
  • 来自专栏超级架构师

    【数据】数据和仓库:范式简介

    博客系列 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和雪花 数据和仓库第 3 部分:Azure Synapse 观点 两种范式:数据与数据仓库 基于一些主要组件的选择 】或者加QQ群【792862318】 公众号 【jiagoushipro】【超级架构师】精彩图文详解架构方法论,架构实践,技术原理,技术趋势。 QQ群 【792862318】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。 视频号 【超级架构师】1分钟快速了解架构相关的基本概念,模型,方法,经验。每天1分钟,架构心中熟。 知识星球 向大咖提问,近距离接触,或者获得私密资料分享。 知识星球【职场和技术】 微博 【智能时刻】 智能时刻 哔哩哔哩 【超级架构师】 抖音 【cea_cio】超级架构师 快手 【cea_cio_cto】超级架构师 小红书 【cea_csa_cto】超级架构

    1.2K10编辑于 2022-03-08
  • 来自专栏【腾讯云开发者】

    每年节约3千万!微信实验平台Iceberg一体架构改造

    # 关注并星标腾讯云开发者 # 每周3 | 谈谈我在腾讯的架构设计经验 # 第4期 | 黄延岩:微信实验平台 - 全面拥抱时代 微信实验平台简介 微信实验平台主要提供微信内部各个业务场景( StarRocks+Iceberg 更好的融合 我们的实时指标计算场景,我们没有复杂的 ETL pipeline,主要利用 OLAP(StarRocks/ClickHouse)等 SQL 表达能力强的引擎 StarRocks 3.x + Iceberg,便于融合。 Steaming Lakehouse 伴随着社区 Apache Paimon 的孵化,我们也希望流批一体架构变得更简洁,在保证性能的前提下,忽略掉流存储 MQ 和存储 Table Format 的差异 -End- 原创作者|杨波 一体有哪些优势,你对这个技术有什么看法?欢迎在腾讯云开发者公众号留言。我们将挑选一则最有意义的评论,为其留言者送出腾讯定制-便捷通勤袋1个(见下图)。

    1.8K31编辑于 2023-08-25
  • 来自专栏腾讯云存储

    直播预告| Lakehouse 一体化架构论坛

    在大模型时代,企业将如何进行一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战? 让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit:OLAP 线上峰会中,「Lakehouse 一体化架构」论坛上看头部企业如何做! 精彩内容,扫码报名,免费参会 本次Lakehouse一体化架构论坛的出品人程力老师,腾讯云数据存储的负责人,他对数据存储架构有着深入的理解与丰富的实践经验。 演讲摘要:腾讯云对象存储中心推出的 GooseFS 加速存储产品,从最初加速应用场景下的海量吞吐与数据本地化调度,已经扩展演进到了实时 OLAP 引擎场景。 演讲提纲: 1.GooseFS 加速存储的核心架构 2.GooseFS 在腾讯内部实时 OLAP 搜索场景上的应用落地 3.GooseFS 在低延迟查询搜索请求上的架构演进与性能优化 4.总结 听众收益

    52910编辑于 2024-06-16
  • 来自专栏about云

    一体详解

    问题导读 1.什么是数据仓库、数据集市和数据? 2.一体化为什么诞生? 3.一体化是什么? 4.一体化的好处是什么? 是否能有一种方案同时兼顾数据的灵活性和云数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本?那么一体化就是答案! 3.一体化是什么? 随着当前大数据技术应用趋势,企业对单一的数据和数架构并不满意。 一体是一种新型开放式架构,将数据和数据仓库的优势充分结合,它构建在数据低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能,打通数据和数据仓库两套体系,让数据和计算在之间自由流动 一些技术可能只和数据兼容,而另一些则又可能只和数据仓库兼容。一体的架构意味着为两方面做准备。

    5.1K21编辑于 2022-03-31
领券