首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据学习与分享

    数据一体架构实践

    一、什么是数据? 数据是保存大量原始格式数据的中心位置。与以文件或文件夹形式存储数据的分层数据仓库相比,数据采用扁平化架构和对象存储方式来存储数据。‍ 五、汽车之家一体架构实践案例分享 以下文字来源DataFunTalk,介绍了如何基于Apache Iceberg构建湖一体架构,将数据可见性提升至分钟级;从多维分析的角度来探讨引入Apache Iceberg 02 基于 Iceberg 的一体架构实践 一体的意义就是说我不需要看见,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。 ——贾扬清 1. 架构收益 - 准实时数 上方也提到了,我们支持准实时的入仓和分析,相当于是为后续的准实时数建设提供了基础的架构验证。准实时数的优势是一次开发、口径统一、统一存储,是真正的批流一体。 但是在架构层面上,这个意义还是很大的,后续我们能看到一些希望,可以把整个原来 “T + 1” 的数,做成准实时的数,提升数整体的数据时效性,然后更好地支持上下游的业务。

    3.7K32编辑于 2022-12-12
  • 小红书架构的跃迁之路

    Apache Impala Committer本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后,如何实现极速分析架构 与原有架构相比,湖上分析架构的 P90 查询性能提升了 3 倍,目前查询 响应时间 稳定在 10 秒以内。 结合 Min-Max 索引特性,Iceberg 能在前端(FE)执行谓词下推,从而显著提升数据分析的性能。 数据管理平台 (DLF): 通过分析审计日志,智能推断出自助分析数据集中的表的候选排序列。 未来规划未来规划中,我们将探索结合 StarRocks 和 Paimon 的近实时分析架构,围绕公司业务需求,进一步优化近实时链路的处理能力,并针对具有主键(PK)需求的湖上分析场景,制定更高效的优化方案

    71010编辑于 2025-03-03
  • vivo 架构的性能提升之旅

    ClickHouse 相关痛点虽然 ClickHouse 在宽表应用场景中表现优异,但在一体架构下的加速能力有限,且数据导入期间的存储成本偏高,这成为用户特别关注的问题。 StarRocks 优势StarRocks 在加速方面具备显著优势,支持标准 SQL 并兼容 MySQL 协议。 在查询层,主要涉及即席分析、BI 报表、一体等应用,同时涵盖基础建设和业务系统。 查询加速架构上图展示了最新的查询加速架构。在数据仓库方面,我们主要采用 Hive,其中 90% 以上的表使用 ORC 格式,约 7%–8% 为 Text 格式。 此外,我们希望实现表与内表的联邦查询,以提升查询效率并优化数据处理流程。

    45400编辑于 2025-03-25
  • 来自专栏肉眼品世界

    7000字,详解一体架构

    这里需要注意的是,“一体”并不等同于“数据”+“数据”,这是一个极大的误区,现在很多公司经常会同时搭建数、数据两种存储架构,一个大的数拖着多个小的数据,这并不意味着这家公司拥有了一体的能力 随着当前大数据技术应用趋势,企业对单一的数据和数架构并不满意。 一体是一种新型开放式架构,将数据和数据仓库的优势充分结合,它构建在数据低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能,打通数据和数据仓库两套体系,让数据和计算在之间自由流动 07 一体落地路径与成本 A:现在大多数企业都已经有了自己的一套大数据架构,他们如何基于已有的架构落地一体?有哪些可行的落地路径?成本可能主要会来自哪里? 现在是采用一体的好时机吗? Q:现在大多数企业都还没有用到一体的新架构,他们要么选择了数据方案,要么选择了数方案。一体作为一个新兴架构,很多企业目前还在早期探索阶段。

    4.9K30编辑于 2022-04-19
  • 快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级

    原有分离架构,由离线数据和实时数组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。 统一数据的构建和计算引擎 : Apache Doris 支持主流的数据写入能力,用户可以基于 Doris 进行统一的数据写入、处理及分析,形成一体架构下的链路闭环。 基于 Apache Doris 的一体架构快手基于 Apache Doris 升级为一体分析平台,新架构如图所示:从下至上,主要分为以下几个层级:数据加工层:数据源数据同步到数据(Hive/ 接下来重点介绍整个一体架构中,缓存服务和自动物化服务方面的功能和实践经验。 结束语引入 Apache Doris,使快手成功从分离架构升级到一体架构

    1.7K10编辑于 2024-09-27
  • 新兴数据手册·从分层架构到数据架构(2025):数据仓库分层的概念与设计

    《新兴数据设计与实践手册·从分层架构到数据架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据架构的设计与实践。 手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数分层设计 本文为系列文章首篇,详细剖析了数据仓库分层的概念与设计,希望能够为相关从业者提供数据设计与实践的系统指引。 而随着数据量的增加和非结构化数据和实时处理需求的增加,ETL架构也逐步被淘汰演变为EtLT架构(参见ELT已死,EtLT才是现代数据处理架构的终点!),以更好地适应多样化的数据源和实时场景。 因此,EtLT架构已经成为现在技术的主流架构。 目前的架构基本都在数数据仓库的某些字段内容可能需要基于多个源字段的逻辑关系计算得出,可以书写相应的SQL完成整体开发。

    56210编辑于 2025-10-15
  • 来自专栏DevOps

    一体:基于Iceberg的一体架构在B站的实践

    一体是近两年大数据一个非常热门的方向,如何在同一套技术架构上同时保持的灵活性和的高效性是其中的关键。 在B站,基于我们之前的技术栈和实际的业务场景,我们选择了第二个方向,从数据架构一体演进。 B站的一体实践 对于B站的一体架构,我们想要解决的问题主要有两个:一是鉴于从Hive表出到外部系统(ClickHouse、HBase、ES等)带来的复杂性和存储开发等额外代价,尽量减少这种场景出的必要性 我们基于Iceberg构建了我们的一体架构,在具体介绍B站的一体架构之前,我觉得有必要先讨论清楚两个问题,为什么Iceberg可以构建湖一体架构,以及我们为什么选择Iceberg? Magnus是我们一体架构的核心组件,它负责管理优化所有的Iceberg表中的数据。

    2.4K21编辑于 2024-03-29
  • 来自专栏Apache Doris

    分析|浙江霖梓基于 Doris + Paimon 打造实时离线一体化架构

    导读:浙江霖梓早期使用 CDH 产品套件搭建了大数据系统,面临业务逻辑冗余、查询效率低下等问题,基于 Apache Doris 进行整体架构与表结构的重构,并基于一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体化架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。 /离线一体化架构,为反欺诈策略、用户⾏为分析、BI 应用等若干系统提供了高效准确的服务,实现了查询提速 30 倍、资源成本节省 67% 等显著成效。 基于 Apache Doris 的实时/离线一体化架构经过七个月的设计与实施,最终完成了基于 Apache Doris 离线 / 实时一体化统一架构。 未来,浙江霖梓将持续扩大 Apache Doris 在内部系统的使用范围,并将对数据能力、智能实时应用进行探索及应用:全面接入数据:逐渐扩大 Doris + Paimon ⼀体化架构的应用范围,

    1K20编辑于 2025-02-13
  • 来自专栏ApacheHudi

    京东流量资产基于架构的落地实践

    本文将深入剖析京东流量资产架构从 Lambda 架构迈向一体架构的变革之旅,包括面临的挑战、创新的解决方案、显著的收益以及未来的发展方向。 今天的介绍会围绕下面四点展开: 1. 背景与痛点 2. 为解决 Lambda 架构的痛点,京东引入一体架构架构具有诸多特性,如支持数据更新、存储分离,能处理结构化和非结构化等多种数据类型。 在新架构下,数据经埋点采集服务进入消息队列,由 Flink 实时加工后实时写入表。表数据既能满足下游业务分钟级时延的实时需求,也可供下游业务通过批读方式进行离线处理。 03 显著成效:架构升级的收益 1. 数据时效性飞跃 一体架构升级后,数据时效性从 T+1 提升到 15 分钟,SLA 从凌晨两点半提前到零点半。 京东流量资产一体架构的升级实践,成功解决了传统架构的诸多问题,取得了显著的成效。

    29122编辑于 2025-08-18
  • 来自专栏肉眼品世界

    基于一体构建数据中台架构

    数据仓库存储结构化的数据,适用于快速的BI和决策支撑,而数据可以存储任何格式的数据,往往通过挖掘能够发挥出数据的更大作为,因此在一些场景上二者的并存可以给企业带来更多收益。 一体,又被称为Lake House,其出发点是通过数据仓库和数据的打通和融合,让数据流动起来,减少重复建设。 Lake House架构最重要的一点,是实现数据仓库和数据的数据/元数据无缝打通和自由流动。 湖里的“显性价值”数据可以流到里,甚至可以直接被数使用;而里的“隐性价值”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。 一体技术借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放,正成为企业数字化转型过程中的备受关注焦点。

    1.6K10编辑于 2022-11-29
  • 来自专栏肉眼品世界

    一体架构构建与平台应用实践

    数据适合存储非结构化的、信息密度低的、未经清洗的数据。例如生产中我们获取到的日志信息、长文本信息等都可以直接放到数据中。 曾经有一段时间,大家对于大数据的存储形式分裂为了两派。 不断询问是选择数据,还是选择数据仓库? 选择数据,才能拥有数据的多样与灵活,有利于将不同的数据组合在一起,发现新的规律。 一体,即打通数据仓库和数据两套体系,让数据和计算在之间自由流动,从而构建一个完整的有机的大数据技术生态体系。 下面这份PPT材料来自DAMA中国,专题分享活动《一体,构建企业数字化新基座》,作者数据科学家毛亮坚老师,主要介绍了大数据平台架构演进、详细阐述一体架构构建与探索思路、一体化平台应用实践案例 、最后提出了一体化平台未来发展趋势,推荐给大家阅读。

    1.8K10编辑于 2022-03-25
  • 来自专栏ApacheHudi

    通用数据一体架构正当时

    通用数据一体架构 通用数据一体架构将数据一体置于数据基础架构的中心提供快速、开放且易于管理的商业智能、数据科学等事实来源。 通过采用通用数据一体架构,组织可以克服以前无法克服的脱节架构的挑战,该架构和仓库之间不断复制数据。 数以千计同时使用数据和数据仓库的组织可以通过采用此架构获得以下好处: 统一数据 通用数据一体体系结构使用数据一体作为组织云帐户中的事实来源,并以开源格式存储数据。 我相信在未来的道路上通用数据一体架构也可以建立在为这些需求提供类似或更好的支持的未来技术之上。 最后 Onetable 是通用数据一体架构的另一个构建块。 借助通用数据一体架构,他们的分析师可以继续使用仓库对一体中存储的数据进行查询。

    84710编辑于 2024-01-17
  • 来自专栏随手写个文章

    大数据架构系列:如何理解一体

    目前业内的一体的架构一般都叫基于某某数据仓库的一体架构,用户会把热数据(频繁查询)放在数据仓库中,无论在存储和计算上都有大量的优化,计算速度快、成本高;冷数据放在数据中,计算慢、成本低,当用户要查询时 也有一些一体的架构中没有数据仓库产品,仅用了Presto作为查询加速(火山引擎、Bilibili),不过整体架构大致也差不多。 ,的作用在于提速,的作用在支持海量的数据并发写入和海量存储;且设计者希望尽量降低架构的复杂度,提高效率。 链接5 4万字全面掌握数据库、数据仓库、数据集市、数据、数据中台。链接6 大数据发展20年,“一体”是终局?链接7 B站基于Iceberg的一体架构实践。链接8 亚马逊一体。 链接9 构建切实有效的一体架构。 链接

    3K102编辑于 2022-10-17
  • 来自专栏ClickHouse

    一体

    做一名主要从事OLAP内核研发,对现有理解做个总结;欢迎批评/指正/讨论 1 为什么一体这么热: 定义这里就不赘述了,大家可以去搜 我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题 ,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对本质的理解可能都不太一样,那又怎么谈一体呢。 我也一样,理解一定是片面的,我吸收的内容和我个人脑海呈现的画面也是不一样的,只能尽自己所能,表达清楚对一体的理解,和面对什么样的业务背景下,我们应该如何围绕我们的平台去做自己的一体。 这里还是要在大脑架构中有清晰的分辨,或者你要将他们理解为就是一样的,都可; 5 演进思考: 接下来就进入,看山不是山,看水不是水环节: 一体/离在线一体/云原生 是不是一个意思: 从产品角度出发,我认为比如 ,随着业务规模上涨,整体架构难以维系; 行业总结:这些问题是共性,大模型到来为下一代数据平台演进指引了方向; 6 How/What 一体 我理解它更是一层抽象的逻辑,不解释,接着看您 比如开始MPP

    1.1K21编辑于 2024-11-26
  • 来自专栏大数据成神之路

    Apache Paimon毕业,架构的未来发展趋势!

    主要目的是透过当前的各个框架对领域的发展做一个基本的判断和预测。 框架能力模型 领域开源的几个核心框架,基本着眼点都在「同一批流一体存储服务」。 那么领域的框架应该具备的能力包含: 流式读写 应该具备秒级的数据数据写入和数据增量消费能力。 并且如果的框架想要取代Kafka的部分能力,这个RPS要求在千万级别,但是明显目前是达不到的。 在高RPS的业务场景中,架构不是一个很好的选择,因为性能瓶颈明显,什么都想做的结果就是什么都不能做到极致, 批式读写 在批读和批写方面应该完全涵盖Hive的能力,并且提供分区并发更新、主键更新等额外能力 此外,领域的框架需要探索例如部分列更新、维度表等能力,这些能力也是的框架明显优于传统数据方向框架的标志,目前在各个框架都有在推进中,十分期待。 最后 领域发展趋势很好,在国内的几家大厂已经有了成熟的应用,并且在替代原有链路上在进行积极的探索。 未来大家会看到,领域框架的能力越强,传统的数据开发的理论和开发模式越容易被替代。

    85310编辑于 2024-05-07
  • 来自专栏【腾讯云开发者】

    大数据架构系列:如何理解一体?

    业内目前分享出来的信息来看,主要还是为了替换掉老的Lambda和Kappa架构,想通过一个相对简单的架构进行降本提效。 价值的交点 (以上图片来自阿里云) How:业界怎么做一体? 目前业内的一体的架构一般都叫基于某某数据仓库的一体架构,用户会把热数据(频繁查询)放在数据仓库中,无论在存储和计算上都有大量的优化,计算速度快、成本高;冷数据放在数据中,计算慢、成本低,当用户要查询时 真实业务场景可能是同一套架构里面会支持上述两种实现。也有一些一体的架构中没有数据仓库产品,仅用了Presto作为查询加速(火山引擎、Bilibili),不过整体架构大致也差不多。 ,的作用在于提速,的作用在支持海量的数据并发写入和海量存储;且设计者希望尽量降低架构的复杂度,提高效率。 7.B站基于Iceberg的一体架构实践 8.亚马逊一体 9.构建切实有效的一体架构  作者简介 叶强盛 腾讯云开发者社区【技思广益·腾讯技术人原创集】作者 腾讯后台开发工程师,目前负责腾讯天穹大数据

    5.9K20编辑于 2022-09-13
  • 来自专栏超级架构师

    【数据】数据和仓库:范式简介

    博客系列 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和雪花 数据和仓库第 3 部分:Azure Synapse 观点 两种范式:数据与数据仓库 基于一些主要组件的选择 】或者加QQ群【792862318】 公众号 【jiagoushipro】【超级架构师】精彩图文详解架构方法论,架构实践,技术原理,技术趋势。 QQ群 【792862318】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。 视频号 【超级架构师】1分钟快速了解架构相关的基本概念,模型,方法,经验。每天1分钟,架构心中熟。 知识星球 向大咖提问,近距离接触,或者获得私密资料分享。 知识星球【职场和技术】 微博 【智能时刻】 智能时刻 哔哩哔哩 【超级架构师】 抖音 【cea_cio】超级架构师 快手 【cea_cio_cto】超级架构师 小红书 【cea_csa_cto】超级架构

    1.2K10编辑于 2022-03-08
  • 来自专栏腾讯云存储

    直播预告| Lakehouse 一体化架构论坛

    在大模型时代,企业将如何进行一体化架构选型?下一代Lakehouse架构方向又在哪里?未来面临着怎么样的挑战? 让我们在6月15日举办的以「大模型时代的 OLAP 技术演进」为主题的第58届DataFunSummit:OLAP 线上峰会中,「Lakehouse 一体化架构」论坛上看头部企业如何做! 精彩内容,扫码报名,免费参会 本次Lakehouse一体化架构论坛的出品人程力老师,腾讯云数据存储的负责人,他对数据存储架构有着深入的理解与丰富的实践经验。 演讲议题:下一代加速存储 GooseFS 在实时 OLAP 搜索场景中的实践与优化 演讲嘉宾:于飏 腾讯云 COS 对象存储团队资深高级工程师 个人介绍:硕士毕业于西安电子科技大学,一直专注云端对象存储相关技术的研发工作 演讲摘要:腾讯云对象存储中心推出的 GooseFS 加速存储产品,从最初加速应用场景下的海量吞吐与数据本地化调度,已经扩展演进到了实时 OLAP 引擎场景。

    50310编辑于 2024-06-16
  • 来自专栏about云

    一体详解

    随着当前大数据技术应用趋势,企业对单一的数据和数架构并不满意。 一体是一种新型开放式架构,将数据和数据仓库的优势充分结合,它构建在数据低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能,打通数据和数据仓库两套体系,让数据和计算在之间自由流动 而数据则往往使用大数据文件系统和Spark在廉价的硬件上存储计算数据。一体架构的目标就是结合这些技术来最大力度降低成本。 而当使用一体架构后,两个团队可以在同一数据架构上进行工作,避免不必要的重复。 数据停滞:在数据中,数据停滞是一个最为严重的问题,如果数据一直无人治理,那将很快变为数据沼泽。 一些技术可能只和数据兼容,而另一些则又可能只和数据仓库兼容。一体的架构意味着为两方面做准备。

    5K21编辑于 2022-03-31
  • 多模态数据:AI团队正在迁移的架构详解

    当“数据”概念在2020年首次被提出时,其目标是在单一架构中统一数据仓库和数据:在廉价的对象存储上使用开放格式,内置ACID事务、模式强制、治理、BI支持和流处理。 为了防止回归到孤岛式架构——团队需要维护独立的向量数据库、搜索引擎和对象存储——各团队正在重新审视概念。 多模态数据的崛起LanceDB将Lance格式提升为多模态数据,这是一个旨在整合复杂数据类型(包括视频、音频、3D模型和嵌入向量)以及传统表格记录的架构范式。 多模态数据已在生产中使用,其采用凸显了两个主要驱动因素:性能优化和基础设施整合。 对于大多数团队来说,主要的架构问题是“多模态如何适应我的AI平台的其余部分?”一个有用的视角是PARK栈:PyTorch、前沿AI模型、Ray和Kubernetes。

    42410编辑于 2026-01-09
领券