搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

CDH离线数仓实操
链接：https://github.com/markgrover/cloudcon-hive
64110编辑于 2024-12-27
来自专栏JavaEdge
离线数仓建设之数据导出
ads_alarm_stat_last_month为例： { "job": { "setting": { "speed": { "channel": 1 // DataX 作业的并发通道数，
51100编辑于 2024-05-26
来自专栏肉眼品世界
如何搭建Spark离线数仓（PPT）
1.4K11编辑于 2022-06-15
来自专栏暴走大数据
离线数仓从0到1
对于数仓而言，又何尝不是？互联网的发展，导致大数据的人才缺口。互联网公司雨后春笋，传统行业机巧转身。短短几年，数据行业已沧海桑田。建设数仓什么是数仓，为什么建设数仓，怎么建设数仓？（我是谁，我从哪里来，我到哪里去） Inmon将数据仓库定义为：在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。系统层面 etl过程：打通你的任督二脉(离线+实时)，让数据在整个环节中流通起来数据分层：一套(低耦合、高内聚)的层级，是十分重要的。与分析/业务握手：下游服务，需求方是多个的，即可能是分析，也可能是运营/boss，先理解他们，在让他们理解你迭代数仓：只要业务在发展，数仓就需要不断更新；响应业务变化，丰富数据模型个人角色责任：从大局出发，看待数仓建设，要考虑与源数据的交互，质量的监控，如何对外提供数据服务等。而在这些工作中，模型的建设可以说是灵魂式的存在。
1.8K22发布于 2019-08-30
来自专栏大数据开发
大数据开发：离线数仓与实时数仓
1、离线数仓离线数仓，其实简单点来说，就是原来的传统数仓，数据以T+1的形式计算好放在那里，给前台的各种分析应用提供算好的数据。到了大数据时代，这种模式被称为“大数据的批处理”。数据采集：flume/logstash+kafka，替代传统数仓的FTP；批量数据同步：Sqoop、Kettle，跟传统数仓一样用Kettle，部分商用ETL工具也开始支持大数据集群；大数据存储：Hadoop HDFS/Hive、TiDB、GP等MPP，替代传统数仓的Oracle、MySQL、MS SQL、DB2等；大数据计算引擎：MapReduce、Spark、Tez，替代传统数仓的数据库执行引擎； OLAP 2、实时数仓实时数仓最开始是在日志数据分析业务中被广泛使用，后来在各种实时战报大屏的推动，实时数仓开始应用。与离线计算相比，实时计算减少了数据落地，替换了数据计算引擎，目前纯流式数据处理基本上就只有Spark Streaming了，而Flink是批流一体的。
5.4K11发布于 2021-06-09
来自专栏全栈程序员必看
离线数仓和实时数仓架构与设计
前言：离线数仓和实时数仓架构与设计讲解离线数仓和实时数仓架构与设计一、数仓架构演变（场景驱动）二、离线大数据架构三、离线数仓分层四、离线大数据架构典型案例 1、Lambda架构 1.Lambda 架构存在的问题 2、Kappa架构 1.Kappa架构典型案例 2.Kappa架构典型案例（一Kylin为例） 3.Kappa架构的重新处理过程 3、Lambda架构 vs Kappa架构的对比 4、实时数仓 vs 离线数仓 5、实际业务中如何选择呢 6、现状：混合架构大行其道 7、数仓的发展趋势五、疑问解答与加群交流学习一、数仓架构演变（场景驱动）二、离线大数据架构三、离线数仓分层四、离线大数据架构典型案例 2、Kappa架构 1.Kappa架构典型案例 2.Kappa架构典型案例（一Kylin为例） 3.Kappa架构的重新处理过程 3、Lambda架构 vs Kappa架构的对比 4、实时数仓 vs 离线数仓 5、实际业务中如何选择呢 6、现状：混合架构大行其道 7、数仓的发展趋势发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/142435.html
1.8K31编辑于 2022-08-25
来自专栏Spark学习技巧
美团外卖离线数仓建设实践
本文主要介绍美团外卖离线数仓的历史发展历程，在发展过程中碰到的痛点问题，以及针对痛点做的一系列优化解决方案。 01 业务介绍 ? 数据加工层：使用 Spark、Hive 构建离线数仓、使用 Storm、 Flink 实时数仓。 02 数仓建设 1. 数据仓库V1.0 ? 2016 年之前。 2.1 数仓规范 ① 数据仓库建模规范 ? 面对这个问题，我们在 2019 年对数仓进行了新的迭代，即数仓 V3.0，下面将对此做详细介绍。 3. 数据仓库V3.0 ? 总体愿景：数仓 3.0 优化思路主要是使用建模工具替代人工开发。
2K21发布于 2021-03-05
来自专栏全栈程序员必看
漫谈大数据 – 基于SparkSQL的离线数仓
目录知识补充离线数仓的分层设计数据分层 ODS 数据分层 DW 数据分层 APP 数据建模 ---- 知识补充在正式阅读之前，首先需要理解以下基本概念以帮助你更好的了解数据仓库：业务板块：比数据域更高维度的业务划分方法离线数仓的分层设计传统数仓：数仓为什么要分层呢？清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。用于离线数据分析场景，是否需要支持实时分析?可能涉及复杂查询?需要支持上层报表系统，是否开放给非技术人员使用? 业务部门目前有没有明确的数据需求，半年内是否有数据监测分析和指标统计等需求? Hadoop集群可以进行水平扩展(scale out） PG加上proxy 也可以水平分片除了引擎，外围系统同样需要考虑数据规模除了数据规模，还需要考虑租户用量之后就是易用性、运维等等再之后我们搭建数仓分层和引擎架构 sparksql在其中有自己的架构体系：最后我们来看一个真实的数仓架构：写在最后，数据仓库也是很多表组成的，请永远记住什么是数据仓库？
87620编辑于 2022-11-17
来自专栏小四的技术文章
大数据技术栈之-离线数仓构建
前言上一篇说了实时数仓并写了一个简单的例子，这些主要来说离线数仓，数据到达kafka后，走了实时和离线两条路，离线条路线的主要流程是采集kafka的数据HDFS中，然后使用Hive进行数仓的建设，因为我们数据来源可能是第三方 API，IOT还有其他一些渠道，还有直接从数据库同步过来，那么数据库的数据我们离线这边可能直接使用DataX这种工具同步到HDFS了，就不经过Kafka了，而其他的数据才经过kafka,然后再使用采集程序将数据采集到数仓建模数仓建模分为关系建模和维度建模，关系建模就是按照三范式规范来进行表的设计，我们知道3NF通过实体和关系进行连接，降低了数据的冗余，但是很多时候我们为了效率，不会完全遵守3NF，而维度模型以数据分析作为出发点分层设计数仓设计是分层设计，分为了ODS层，DWD层，DWS层，ADS层等，不过对于层次的划分，我觉得完全是根据业务需求去划分，不可能去照搬，可能所有层次都需要用到，也可能只用到其中几层，甚至可能数据到了
1.7K11编辑于 2023-03-02
来自专栏五分钟学大数据
结合公司业务分析离线数仓建设
数仓建设到这才真正到数仓建设，为什么前面要占那么大篇幅去介绍公司业务及所使用的数据中台系统，因为下面的数仓建设是根据公司的业务发展及现有的数据中台进行，数仓的建设离不开公司的业务。 ? 智能数仓规划数仓建设核心思想：从设计、开发、部署和使用层面，避免重复建设和指标冗余建设，从而保障数据口径的规范和统一，最终实现数据资产全链路关联、提供标准数据输出以及建立统一的数据公共层。有了核心思想，那怎么开始数仓建设，有句话说数仓建设者即是技术专家，也是大半个业务专家，所以采用的方式就是需求推动数据建设，并且因为数据中台，所以各业务知识体系比较集中，各业务数据不再分散，加快了数仓建设速度理想的数仓模型设计应当具备：数据模型可复⽤，完善且规范。尽量避免一层的表生成当前层的表，如dw层表生成dw层表，这样会影响ETL效率。禁止出现反向依赖，如dw表依赖于dm表。数据应用层数据应用层的表就是提供给用户使用的，数仓建设到此就接近尾声了，接下来就根据不同的需求进行不同的取数，如直接进行报表展示，或提供给数据分析的同事所需的数据，或其他的业务支撑。
93410发布于 2021-03-04
来自专栏大数据-BigData
网易严选离线数仓质量建设实践
本篇将以严选数仓为例，从建设目标、保障措施、效果评价等几方面探讨数仓质量建设。 1 ‍保障等级确认‍ 网易严选离线数仓目前主要基于有数大数据平台进行调度及管理（Azkban），FLOW数量4000+，首先我们要做的事情就是从中识别出每个任务的重要程度，以此确定保障的策略。及时性及时性指业务需要看数时，要有数可看，具体落实下来就是数仓的FLOW要能稳定按时产出。 3 数据质量实施策略针对前面提到的建设目标，目前主要有以下策略。数仓的数据来自于上游业务系统，上游系统的逻辑变更必然对数仓造成影响。作者简介冯楚，网易严选资深数据开发工程师，主要负责供应链数据建模及离线数仓质量治理相关工作。分享，点赞，在看，安排一下？
56810编辑于 2022-06-27
来自专栏大数据解决方案
企业是如何选择技术栈来做离线数仓
前言最近在跟一位粉丝聊天，聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个案例，仅供参考。 ? 案例一、小型公司首先我们要明白一点小型公司人员并不多其次服务器的配置有不是很高，这时如果要做数仓使用到的大数据组件就不可能了，那我们就使用传统数据库来进行讲解。，分别在oracle中构构建四层分别为 ods、dwd、dws、ads这里我就不介绍数仓分层概念了最后的整体架构如下：数据库：Oracle 数据同步：kettle 数据展示：大屏展示，Superset 案例二、中型公司首先中型公司做离线数仓并不单纯的做数仓，你将你数据存放在数仓中通报表的形式展示在大屏中，体现不出数仓的价值，可以通过这个些数据做一个用户画像。我在这里举一个不恰到的例子：比如数仓的中的数据没有被利用起来，我购买了一个商品在后台报表中加上我刚刚下单的这一条数据（死数据），只是报表发生了改变但是对于公司而是价值不大，这时我们是不是可用基于数仓做一个用户画像
1.3K10发布于 2021-02-04
来自专栏大数据学习与分享
企业级离线数仓分层设计和演化之路
免责声明：本公众号所发布的文章为本公众号原创，或者是在网络搜索到的优秀文章进行的编辑整理，文章版权归原作者所有，仅供读者朋友们学习、参考。对于分享的非原创文章，有些因为无法找到真正来源，如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等，如有侵权，请直接联系后台，说明具体的文章，后台会尽快删除。给您带来的不便，深表歉意。
39131编辑于 2022-12-12
来自专栏WHYBIGDATA公众号同步文章
离线数仓之Kerberos基本使用及问题记录
离线数仓之Kerberos基本使用及问题记录 0. 写在前面 1. Kerberos基本使用 0. 启动Kerberos相关服务 1. 安全模式下启动Hadoop集群 2. 所以连接不上之前数仓分层时在DataGrip创建的Hive数据源。 ❞ ---- 1. 新建driver 2. 配置Driver 3. 新建连接 4.
1.1K30编辑于 2023-01-31
来自专栏Spark学习技巧
60+张PPT，教你如何搭建Spark离线数仓！
92340编辑于 2023-03-21
离线数仓和实时数仓有什么区别？
不管是离线数仓还是实时数仓，都是企业为业务决策、数据分析提供稳定的数据支撑。但是对于不同的业务和数据时效要求，他们两个架构设计的逻辑是不一样的。今天就跟大家聊聊离线数仓和实时数仓是什么？二、离线数仓，打稳定批量处理离线数仓核心是按固定周期批量处理数据，主流处理时效为T+1，部分低频分析场景会用到T+7。，这些细节都是保证离线数仓长期稳定运行的关键。业务能接受T+1的数据，优先离线数仓，成本低、稳定性高、开发效率高。业务需要分钟级甚至秒级数据，实时数仓是必须的，没有商量余地。看团队技术储备。实时数仓对团队的技术要求明显高于离线数仓。如果团队在流处理方面经验不足，贸然上实时数仓，踩坑的概率极高，得不偿失。看预算和资源。实时数仓的资源成本和人力成本都高于离线数仓。预算有限的情况下，把离线数仓做扎实，比什么都重要。
35810编辑于 2026-03-24
实时数仓和离线数仓还分不清楚？看完就懂了
一、什么是离线数仓一句话理解：离线数仓是一个专门用来存储和处理批处理数据的系统。它的数据处理和分析都是基于批处理作业来进行的，主要靠sqoop、hive这些技术来搭建，处理的是T+1的离线数据。三、实时数仓和离线数仓的区别看到这里，你可能会好奇，实时数仓和离线数仓具体有哪些不一样的地方？别急，这部分就来详细说说它们的区别，帮你更清晰地分辨两者。 1.架构上实时数仓和离线数仓区别挺明显的，实时数仓主要用Kappa架构，离线数仓则以传统大数据架构为主。Lambda架构可以算是两者的中间态。 2.建设方法上实时数仓和离线数仓基本还是沿用传统的数仓主题建模理论，产出事实宽表。另外，实时数仓中实时流数据的join有隐藏的时间语义，建设的时候可得注意了。如果觉得自建麻烦，可以考虑借助成熟工具。明确区分并合理运用实时与离线数仓能力，是最大化数据价值、赋能敏捷决策的基础。
73810编辑于 2025-08-18
离线开发平台-HTTP数据同步到Doris数仓能力演示
DolphinScheduler建设 DolphinScheduler 是一个功能强大的分布式任务调度平台，支持复杂工作流编排、任务监控与告警，适用于离线数据处理场景。二、离线开发平台功能特点分布式易扩展架构可视化DAG工作流编排多租户与权限管理任务类型丰富高可靠性与容错机制灵活的调度策略任务状态监控与日志数据源集成能力版本控制与状态管理生态兼容性部署步骤：一、源码获取 4.6 启动服务启动Zookeeper（如果尚未启动）：启动DolphinScheduler服务：验证服务是否启动成功：一、离线开发平台-功能概览二、离线开发平台-项目管理三、进入工作流页面四、十、Http数据同步到Doris实时数仓，启动Http到Doris任务同步工作流十一、Http数据同步到Doris实时数仓，上线Http到Doris同步任务工作流十二、Http数据同步到Doris实时数仓，定时抽取Http数据到Doris数据仓库十三、Http数据同步到Doris实时数仓任务执行成功，同步数据成功十四、Http数据同步到Doris实时数仓任务日志，查看同步操作记录十五、Http数据同步到
44610编辑于 2025-08-26
技术指南：将离线数仓平滑迁移到大数据平台
摘要本技术指南旨在指导企业如何将现有的离线数仓平滑迁移到大数据平台，以实现性能提升、成本节约和数据治理优化。技术解析核心价值与典型场景离线数仓迁移到大数据平台的核心价值在于提升数据处理性能、降低运营成本并强化数据治理。典型场景包括数据驱动型企业的业务分析、实时决策支持和大规模数据处理。数据迁移与转换原理说明：将数据从离线数仓迁移到大数据平台，并进行必要的数据格式转换。操作示例：利用腾讯云COS的自动转储功能，将历史数据自动转储到COS，减少迁移复杂性。 3. 有限的性能提升性能提升10~100倍成本节约无明显节约按需付费，数据高压缩比数据治理治理能力有限完善的数据处理和治理能力场景化案例来源：某金融企业通过腾讯云TKE和WeData成功将离线数仓迁移到大数据平台通过本技术指南，企业可以清晰地了解如何将离线数仓平滑迁移到大数据平台，并利用腾讯云产品实现性能提升、成本节约和数据治理优化。
33810编辑于 2025-07-28
来自专栏数据指象
知数仓名，懂数仓义
做数据开发不能绕过数据仓库的建设，数仓是数据分析/数据挖掘的基础料仓，更是描述一个企业蓝图的智库。如何打造出一个反映企业全局的数仓视图是“路漫漫其修远兮”的任重远道；在数据公众号“数据指象”的上一篇推文《数仓矛盾的演进之旅》中，描述了数仓由简入繁的其中道理。今天我们接着了解数仓的名义。数据集成性：集成是数仓最重要的特点之一，也是突出与传统数据库的特性之一；没有集成数仓就没有价值；只有将：同义不同名、同名不同义、多数据源、码值分解等等杂乱无章的数据，以集成就行统一、进行归一、进行编排形成一致性统一的的数仓非易失性：不易丢失数据是仓的基本属性，数仓承接经年累月的数据输入，保存历史的数据细节，在时间的作用慢慢地聚沙成塔，让微小的数据也能发出耀眼的光芒。具体数仓中粒度如何选择，后续将分享如何构建双粒度数仓周末快乐
88820编辑于 2022-04-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

CDH离线数仓实操

离线数仓建设之数据导出

如何搭建Spark离线数仓（PPT）

离线数仓从0到1

大数据开发：离线数仓与实时数仓

离线数仓和实时数仓架构与设计

美团外卖离线数仓建设实践

漫谈大数据 – 基于SparkSQL的离线数仓

大数据技术栈之-离线数仓构建

结合公司业务分析离线数仓建设

网易严选离线数仓质量建设实践

企业是如何选择技术栈来做离线数仓

企业级离线数仓分层设计和演化之路

离线数仓之Kerberos基本使用及问题记录

60+张PPT，教你如何搭建Spark离线数仓！

离线数仓和实时数仓有什么区别？

实时数仓和离线数仓还分不清楚？看完就懂了

离线开发平台-HTTP数据同步到Doris数仓能力演示

技术指南：将离线数仓平滑迁移到大数据平台

知数仓名，懂数仓义

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐