首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ClickHouse

    一体

    做一名主要从事OLAP内核研发,对现有理解做个总结;欢迎批评/指正/讨论 1 为什么一体这么热: 定义这里就不赘述了,大家可以去搜 我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题 ,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对本质的理解可能都不太一样,那又怎么谈一体呢。 我也一样,理解一定是片面的,我吸收的内容和我个人脑海呈现的画面也是不一样的,只能尽自己所能,表达清楚对一体的理解,和面对什么样的业务背景下,我们应该如何围绕我们的平台去做自己的一体。 这里还是要在大脑架构中有清晰的分辨,或者你要将他们理解为就是一样的,都可; 5 演进思考: 接下来就进入,看山不是山,看水不是水环节: 一体/离在线一体/云原生 是不是一个意思: 从产品角度出发,我认为比如 view,进行冷热数据的聚合;达到数据的一个统一视图,即上挂,冷热分层; 4 从真正意识上的一体,那就是云原生了: One Data:同时支持离线处理和在线分离,解决数据的一致性和实效性;即数据可以不开源

    1.2K21编辑于 2024-11-26
  • 来自专栏about云

    一体详解

    问题导读 1.什么是数据仓库、数据集市和数据? 2.一体化为什么诞生? 3.一体化是什么? 4.一体化的好处是什么? 那么接下来我们就来了解一下一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据? 由于这些原因,数据的许多功能尚未实现,并且在很多时候丧失了数据的优势。 2.一体化为什么诞生? 是否能有一种方案同时兼顾数据的灵活性和云数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本?那么一体化就是答案! 3.一体化是什么? 4.一体化的好处是什么? 一体能发挥出数据的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。

    5K21编辑于 2022-03-31
  • 来自专栏大数据学习与分享

    数据一体架构实践

    五、汽车之家一体架构实践案例分享 以下文字来源DataFunTalk,介绍了如何基于Apache Iceberg构建湖一体架构,将数据可见性提升至分钟级;从多维分析的角度来探讨引入Apache Iceberg 02 基于 Iceberg 的一体架构实践 一体的意义就是说我不需要看见,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。 ——贾扬清 1. 流批一体: 在流批一体的理念下,Flink 的优势会逐渐体现出来。 12. 总结 通过对一体、流批融合的探索,我们分别做了总结。 一体 Iceberg 支持 Hive Metastore; 总体使用上与 Hive 表类似:相同数据格式、相同的计算引擎。 架构收益 - 准实时数 上方也提到了,我们支持准实时的入仓和分析,相当于是为后续的准实时数建设提供了基础的架构验证。准实时数的优势是一次开发、口径统一、统一存储,是真正的批流一体

    3.7K32编辑于 2022-12-12
  • 来自专栏DevOps

    一体:基于Iceberg的一体架构在B站的实践

    本文主要介绍为了应对以上挑战,我们在一体方向上的一些探索和实践。 Why?为什么需要一体 在讨论这个问题前,我们可能首先要明确两个概念:什么是数据?什么是数据仓库? 一体是近两年大数据一个非常热门的方向,如何在同一套技术架构上同时保持的灵活性和的高效性是其中的关键。 B站的一体实践 对于B站的一体架构,我们想要解决的问题主要有两个:一是鉴于从Hive表出到外部系统(ClickHouse、HBase、ES等)带来的复杂性和存储开发等额外代价,尽量减少这种场景出的必要性 我们基于Iceberg构建了我们的一体架构,在具体介绍B站的一体架构之前,我觉得有必要先讨论清楚两个问题,为什么Iceberg可以构建湖一体架构,以及我们为什么选择Iceberg? 具体详情可查询参考文献[2](通过索引加速一体分析)。

    2.4K21编辑于 2024-03-29
  • 来自专栏云头条

    别说你懂一体

    为此,这篇文章我们将主要分析: 1、数据、数据一体究竟是什么? 2、架构演进,为什么说一体代表了未来? 3、现在是布局一体的好时机吗? 01:数据+数据一体一体出现之前,数据仓库和数据是被人们讨论最多的话题。 正式切入主题前,先跟大家科普一个概念,即大数据的工作流程是怎样的? 于是,一体诞生了。 这里需要注意的是,“一体”并不等同于“数据”+“数据”,这是一个极大的误区,现在很多公司经常会同时搭建数、数据两种存储架构,一个大的数拖着多个小的数据,这并不意味着这家公司拥有了一体的能力 02:为什么说一体是未来? 回归开篇的核心问题:一体凭什么能代表未来? 关于这个问题,我们其实可以换一个问法,即在数据智能时代,一体会不会成为企业构建大数据栈的必选项?

    1.2K30编辑于 2022-03-18
  • 来自专栏大数据杂货铺

    数据一体的好处

    其次,您可以订阅数据服务,例如软件即服务 (SaaS)。 本文将深入探讨这两种类型的数据部署的特征,介绍 Cloudera 新的一体产品 CDP One 的优势。 PaaS 数据 平台即服务 (PaaS) 数据是在您的云帐户中配置的数据的虚拟化部署。Cloudera 数据平台 (CDP) 公共云是 PaaS 数据的一个示例。 SaaS 数据 软件即服务 (SaaS) 数据部署是作为服务提供的交钥匙解决方案。例如,最近发布的 CDP One数据一体化是一种在云中运行的 SaaS 产品(亚马逊网络服务)。 数据一体的好处 运营可用于生产的数据可能具有挑战性。挑战包括部署和维护数据平台以及管理云计算成本。 CDP One 是一种一体化数据软件即服务 (SaaS) 产品,可对任何类型的数据进行快速简便的自助分析和探索性数据科学。

    1.4K20编辑于 2022-12-02
  • 来自专栏数据猿

    一体,技术“缝合怪”?

    因此,一体化应运而生,旨在将数据仓库的结构化分析能力与数据的存储灵活性无缝结合,为企业提供一个综合的数据管理方案。 接下来,我们就一体进行更深入的分析。 现实的业务需求,逼着他们追求一体一体化策略的关键,在于它整合了数据仓库的高效、结构化查询处理能力,和数据的大规模、多样化数据存储能力。 随着技术的不断发展,我们预计一体化将在未来的企业数据战略中扮演越来越重要的角色。 具体怎么实现一体? 既然一体这么好,那么,应该怎么样来实现一体呢? 当然,一体的技术创新才刚刚开始,未来还有很长的路要走。 展望未来,一体化预计将在多个维度实现技术革新和进步。 同时,云计算的广泛应用将促进一体化方案在云原生和多云环境中的适应性,增强其灵活性和扩展性。 此外,用户友好性和无缝集成,将成为一体化解决方案的关键特征。

    1.2K10编辑于 2023-12-01
  • 来自专栏Apache Doris

    数据无界、无界,Apache Doris 一体典型场景实战指南(下篇)

    导读: 一体是将数据和数据仓库的优势相结合的数据管理系统。Apache Doris 结合自身特性,提出了【数据无界】和【无界】核心理念。 上篇文章已介绍了 Apache Doris 一体完整方案,本文将聚焦典型应用场景,进一步深入,帮助读者更好地理解和应用 Apache Doris 一体。 在上一篇文章中,全面介绍了一体演进历程以及 Apache Doris 一体解决方案,具体查阅:(上篇)从 0 到 1 构建湖体系, Apache Doris 一体解决方案全面解读。 本文将进一步深入,聚焦于 分析加速、多源联邦分析、数据处理 这三个典型场景,分享 Apache Doris 一体方案的最佳实践。 、Kyuubi 技术栈快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级网易游戏如何基于 Apache Doris 构建全新一体架构

    1.4K10编辑于 2025-02-21
  • 来自专栏ApacheHudi

    Streaming与Hudi、Hive一体

    Hudi介绍 概述 架构图 核心概念 Timeline 文件布局 索引 表类型与查询 COW类型表详解 MOR类型表详解 流实时摄取 Frog造数程序 Structured Streaming 一体 hudiTableName}") .awaitTermination() } } 运行 启动HDFS集群 启动Hive MetaStore和HiveServer2 启动造数程序 一体 DataSourceOptions.scala 配置项请参考:http://hudi.apache.org/docs/configurations.html#read-options 推荐阅读 触宝科技基于Apache Hudi的流批一体架构实践 Apache Hudi在Hopsworks机器学习的应用 通过Z-Order技术加速Hudi大规模数据集分析方案 实时数据:Flink CDC流式写入Hudi Debezium-Flink-Hudi

    4.2K52发布于 2021-07-05
  • 来自专栏肉眼品世界

    7000字,详解一体架构!

    由于这些原因,数据的许多功能尚未实现,并且在很多时候丧失了数据的优势。 02 数据+数据=一体? 在一体出现之前,数据仓库和数据是被人们讨论最多的话题。 于是,一体诞生了。 这里需要注意的是,“一体”并不等同于“数据”+“数据”,这是一个极大的误区,现在很多公司经常会同时搭建数、数据两种存储架构,一个大的数拖着多个小的数据,这并不意味着这家公司拥有了一体的能力 06 一体化有什么好处? 一体能发挥出数据的灵活性与生态丰富性,以及数据仓库的成长性与企业级能力。 现在是采用一体的好时机吗? Q:现在大多数企业都还没有用到一体的新架构,他们要么选择了数据方案,要么选择了数方案。一体作为一个新兴架构,很多企业目前还在早期探索阶段。

    4.9K30编辑于 2022-04-19
  • 快手:从 Clickhouse 到 Apache Doris,实现分离向一体架构升级

    通过引入 Apache Doris 一体能力,替换了 Clickhouse ,升级为一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。 基于 Apache Doris 的一体架构快手基于 Apache Doris 升级为一体分析平台,新架构如图所示:从下至上,主要分为以下几个层级:数据加工层:数据源数据同步到数据(Hive/ 接下来重点介绍整个一体架构中,缓存服务和自动物化服务方面的功能和实践经验。 结束语引入 Apache Doris,使快手成功从分离架构升级到一体架构。 后续,快手将会进一步探索 Doris 在一体下的应用实践。

    1.7K10编辑于 2024-09-27
  • 来自专栏PostgreSQL研究与原理解析

    一体 - Apache Arrow的那些事

    一体 - Apache Arrow的那些事 Arrow是高性能列式内存格式标准。

    2.5K10编辑于 2024-05-06
  • 一文辨析:数据仓库、数据一体

    但并不是所有的企业都要一体,根据每个企业的数据量、使用方法等选择适合业务需求的才是最好的。 四、一体是什么一体(Lakehouse)是在开放存储格式(Delta Lake/Iceberg/Hudi)基础上,融合数据仓库管理能力与数据灵活性的新架构。这一技术实现了以下三重突破:1. 五、一体的优势一体架构的出现,是大数据架构演进的必然结果。它不仅解决了数据仓库和数据的局限性,还带来了以下多重优势:1. 六、如何向一体进行迁移对于企业来说,向一体架构迁移是一个逐步推进的过程。以下是一些实践建议:1. 存储层统一将历史数数据卸载到对象存储,转换为Delta/Iceberg格式。 但并不是所有的企业都要一体,因为每个企业都有自己的数据特性,数据量、使用方法等方面都存在差异。一体不是终极答案,而是当前技术条件下,实现成本、效率、灵活性三角平衡的一种解法。

    2K11编辑于 2025-09-15
  • 来自专栏ApacheHudi

    农业银行一体实时数建设探索实践

    为此,可通过建设实时数解决上述问题,实时数在离线数基础上进一步满足时效性的要求,依托流批一体一体、云计算等技术,兼具时效性和灵活性优势,可作为金融业实时数据的生产、存储和使用平台。 同时,随着Hudi、Iceberg、Delta Lake等数据技术发展,依托数据湖底座的一体实时数建设正在兴起,对推进企业数字化转型具有重要价值: • 一是弥补现有架构的不足,一体实时数弥补了传统数对于数据实时处理能力的不足 • 三是提升企业级数据分析整合能力,一体实时数打破了数据与数据仓库割裂的体系,将数据的灵活性、数据多样性以及丰富的生态与数据仓库的企业级数据分析能力进行了融合。 实时数建设关键技术 3.1 实时数据入 实时数据入一体实时数数据模型建设的基础,与流计算模式下“即用即弃”的数据处理策略不同,一体实时数借助Hudi数据存储引擎对实时流数据进行摄入存储 未来展望 一体实时数将数据的灵活性、数据多样性、丰富生态与数据仓库的企业级数据分析能力进行了融合,对实时数据模型建设具有重要价值。

    2.5K40编辑于 2023-11-06
  • 来自专栏肉眼品世界

    一体架构构建与平台应用实践

    数据适合存储非结构化的、信息密度低的、未经清洗的数据。例如生产中我们获取到的日志信息、长文本信息等都可以直接放到数据中。 曾经有一段时间,大家对于大数据的存储形式分裂为了两派。 不断询问是选择数据,还是选择数据仓库? 选择数据,才能拥有数据的多样与灵活,有利于将不同的数据组合在一起,发现新的规律。 一体,即打通数据仓库和数据两套体系,让数据和计算在之间自由流动,从而构建一个完整的有机的大数据技术生态体系。 下面这份PPT材料来自DAMA中国,专题分享活动《一体,构建企业数字化新基座》,作者数据科学家毛亮坚老师,主要介绍了大数据平台架构演进、详细阐述一体架构构建与探索思路、一体化平台应用实践案例 、最后提出了一体化平台未来发展趋势,推荐给大家阅读。

    1.8K10编辑于 2022-03-25
  • 来自专栏肉眼品世界

    基于一体构建数据中台架构

    数据仓库存储结构化的数据,适用于快速的BI和决策支撑,而数据可以存储任何格式的数据,往往通过挖掘能够发挥出数据的更大作为,因此在一些场景上二者的并存可以给企业带来更多收益。 一体,又被称为Lake House,其出发点是通过数据仓库和数据的打通和融合,让数据流动起来,减少重复建设。 Lake House架构最重要的一点,是实现数据仓库和数据的数据/元数据无缝打通和自由流动。 湖里的“显性价值”数据可以流到里,甚至可以直接被数使用;而里的“隐性价值”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。 一体技术借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放,正成为企业数字化转型过程中的备受关注焦点。

    1.6K10编辑于 2022-11-29
  • 来自专栏Spark学习技巧

    数据VS数据仓库?一体了解一下

    /EMR DataLake的一体方案做一介绍。 ,系统负责自动caching/moving,系统可以根据自动的规则决定哪些数据放在数,哪些保留在数据,进而形成一体化 我们将在下一章详细介绍阿里云一体方案如何解决这三个问题。 六、阿里云一体方案 1. 整体架构 阿里云MaxCompute在原有的数据仓库架构上,融合了开源数据和云上数据,最终实现了一体化的整体架构(图11)。 4)自动数 一体需要用户根据自身资产使用情况将数据在之间进行合理的分层和存储,以最大化的优势。 构建湖一体化的数据中台 基于MaxCompute一体技术,DataWorks可以进一步对两套系统进行封装,屏蔽异构集群信息,构建一体化的大数据中台,实现一套数据、一套任务在之上无缝调度和管理

    3.8K10发布于 2021-03-11
  • 来自专栏ApacheHudi

    通用数据一体架构正当时

    我将这种架构称为“通用数据一体”。 通用数据一体架构 通用数据一体架构将数据一体置于数据基础架构的中心提供快速、开放且易于管理的商业智能、数据科学等事实来源。 数以千计同时使用数据和数据仓库的组织可以通过采用此架构获得以下好处: 统一数据 通用数据一体体系结构使用数据一体作为组织云帐户中的事实来源,并以开源格式存储数据。 他们使用通用数据一体架构,使数据使用者能够使用各种技术(包括 Hive 和 Spark、Presto 和 Trino、BigQuery 和 Flink)查询一体。 我相信在未来的道路上通用数据一体架构也可以建立在为这些需求提供类似或更好的支持的未来技术之上。 最后 Onetable 是通用数据一体架构的另一个构建块。 借助通用数据一体架构,他们的分析师可以继续使用仓库对一体中存储的数据进行查询。

    85110编辑于 2024-01-17
  • 来自专栏大数据杂货铺

    数据仓库与数据一体:概述及比较

    数据仓库和数据是大数据使用最广泛的存储架构。但是使用数据一体怎么样呢?提供数据仓库、数据以及现在的一体的不同供应商都提供了自己独特的优点和缺点,供数据团队考虑。 3.6 一体的好处 一体架构将数据仓库的数据结构和管理功能与数据的低成本存储和灵活性相结合。 易于数据版本控制、治理和安全性:数据一体架构强制实施架构和数据完整性,从而更容易实现强大的数据安全和治理机制。 3.7 一体的缺点 一体的主要缺点是它仍然是一项相对较新且不成熟的技术。 一体是最新的数据存储架构,它将数据的成本效率和灵活性与数据仓库的可靠性和一致性结合在一起。 此表总结了数据仓库、数据一体之间的差异。 尽管数据一体结合了数据仓库和数据的所有优点,但我们不建议您为了数据一体而放弃现有的数据存储技术。 5. 哪一个存储模式最适合您的需求? 从头开始构建湖一体可能很复杂。

    8.3K11编辑于 2024-04-15
  • 来自专栏Apache Doris

    分析|浙江霖梓基于 Doris + Paimon 打造实时离线一体架构

    导读:浙江霖梓早期使用 CDH 产品套件搭建了大数据系统,面临业务逻辑冗余、查询效率低下等问题,基于 Apache Doris 进行整体架构与表结构的重构,并基于一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。 ,大数据业务系统的局限逐渐暴露:报表系统计算缓慢、运维成本持续攀升、组件间的高度耦合导致架构稳定性较差等,严重影响了大数据系统产出效率,因此浙江霖梓引入 Doris+Paimon 重新构建了实时/离线一体架构 基于 Apache Doris 的实时/离线一体架构经过七个月的设计与实施,最终完成了基于 Apache Doris 离线 / 实时一体统一架构。 #开启⾏存"store_row_column" = "true" 总结与规划截至目前,基于 Doris + Paimon 的实时/离线一体架构已为反欺诈策略、用户⾏为分析、业务监控、 BI 应用等若干系统提供了服务

    1K20编辑于 2025-02-13
领券