搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据指象
知数仓名，懂数仓义
做数据开发不能绕过数据仓库的建设，数仓是数据分析/数据挖掘的基础料仓，更是描述一个企业蓝图的智库。如何打造出一个反映企业全局的数仓视图是“路漫漫其修远兮”的任重远道；在数据公众号“数据指象”的上一篇推文《数仓矛盾的演进之旅》中，描述了数仓由简入繁的其中道理。今天我们接着了解数仓的名义。数据集成性：集成是数仓最重要的特点之一，也是突出与传统数据库的特性之一；没有集成数仓就没有价值；只有将：同义不同名、同名不同义、多数据源、码值分解等等杂乱无章的数据，以集成就行统一、进行归一、进行编排形成一致性统一的的数仓非易失性：不易丢失数据是仓的基本属性，数仓承接经年累月的数据输入，保存历史的数据细节，在时间的作用慢慢地聚沙成塔，让微小的数据也能发出耀眼的光芒。具体数仓中粒度如何选择，后续将分享如何构建双粒度数仓周末快乐
90720编辑于 2022-04-27
数仓入门篇-数仓分层
整体架构图解直接看数仓分层的整体层级图各层级详解ODS层-操作数据层定义：数据仓库的“缓冲区”或“贴源层”。核心作用：隔离风险：避免复杂的清洗逻辑直接影响源系统，也避免源系统变更直接击穿数仓。历史回溯：源系统通常只保留近期数据或覆盖更新，ODS层通过全量或增量快照保留历史状态。它是数仓的字典中心，确保全公司对于用户、商品、城市的定义是统一的。核心作用：统一口径：避免不同报表中“北京市”和“北京”被算作两个城市。 DWD层-明细数据层定义：数仓的核心层。基于ODS数据进行清洗、规范化、脱敏、维度关联后生成的明细事实表。核心作用：数据清洗：去除脏数据、统一枚举值（如性别统一为0/1）、空值填充。全流程案例演示：计算“2026年3月4日各省份的销售总额”老言带你们看一个指标是如何在各层流转的：Source(业务库):orders表：{id:101,user_id:88,amount:100,province_code
42810编辑于 2026-03-13
来自专栏个人总结系列
数仓设计和规范—数仓背景知识
其中对于ER模型，维度模型，Data Vault模型的开发说明可以参考这篇文章：https://blog.csdn.net/wzy0623/article/details/50315719 4. 数据仓库的分层基于数据仓库模型理论指导，以数据分析，统计指标为导向，为了能够记录数据的历史，便于处理业务变化，把复杂问题简单化，通过空间换时间提高数据访问效率，数据集成考虑，在数仓实际开发过程中进行分层处理 4. 从上往下看对应数据仓库分层如下： image.png 从分层开发来看：数仓流程.png 附：阿里数据仓库分层 1.分层和作用 image.png 2.数据分层架构分层架构.png 3.网易数据架构
3.2K01发布于 2020-11-07
来自专栏个人总结系列
数仓设计和规范—数仓构建流程
② 维度：维度是度量的环境，是我们观察业务的角度,如时间，地点等，用来反映业务的一类属性。其中描述维度的是属性，即维度属性，是查询约束条件、分组和报表标签生成的基本来源，是数据易用性的关键。 ③ 度量：度量是指标产生的原始数据，或者是指标的结果值，度量通常为数值型数据，作为事实逻辑表的事实。 ④ 指标：指标分为原子指标和派生指标。原子指标是基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，是具有明确业务含义的名词，体现明确的业务统计口径和计算逻辑，例如支付金额。原子指标=业务过程+度量，如订单数量，支付金额。派生指标=时间周期(When)+修饰词(How)+原子指标，派生指标可以理解为对原子指标业务统计范围的圈定，如用户近1日通过支付宝支付金额，用户近30日通过手机APP产生的订单数量。
1.8K21发布于 2021-07-01
来自专栏全栈程序员必看
数仓分层ods_数仓用来干嘛
文章目录 ODS层（用户行为数据） Shell中单引号和双引号区别 ODS层日志表加载数据脚本 ODS层（业务数据） 1，活动信息表 2，活动规则表 3，一级品类表 4，二级品类表 5 4）创建外部表。在企业开发中，除了自己用的临时表，创建内部表外，绝大多数场景都是创建外部表。 -06-14' "$do_date" 2020年 06月 18日星期四 21:02:08 CST 3）总结：（1）单引号不取变量值（2）双引号取变量值（3）反引号`，执行引号中命令（4） org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION '/warehouse/gmall/ods/ods_base_category1/'; 4，购物券编号', `coupon_name` STRING COMMENT '购物券名称', `coupon_type` STRING COMMENT '购物券类型 1 现金券 2 折扣券 3 满减券 4
1.2K20编辑于 2022-11-08
来自专栏BigData_Flink
数仓分层
A1 作用: 复杂问题简单化隔离原始数据（后期统计和真实数据解耦）数据复用性提高数据结构更清晰统一数据口径 A2 优缺点优点效率高缺点预计算占空间 A3 图解 A4 实现 A4 位置 A5 相关数仓项目
83210发布于 2021-04-12
来自专栏全栈程序员必看
数仓分层
000概述数仓分层是数据仓库设计中十分重要的一个环节，优秀的分层设计能够让整个数据体系更容易理解和使用本文的大纲 001，介绍数据分层的作用 002，分层设计的原则以及介绍一种通用的数据分层设计类似的需要做很多歌DWM的中间表 4，然后再DWS层，将一个人在整个网站中的行为数据放到一张表中，这就是我们的大宽表。数据源一般是公司的业务数据库和埋点数据，当然也有可能是第三方购买数据等多种数据来源方式，一般是mysql 2, ODS：数据量很大，大多数公司选择放在HDFS上，HIVE或者hbase，HIVE居多 3，DW：与ODS存储一致 4，
94421编辑于 2022-07-21
来自专栏大数据数仓建设
「数仓建设篇」数仓主题域划分
一、前言数据仓库具有面向主题的特性，那么就会有主题的概念，数仓建设是遵循纵向分层开发，横向划分主题域设计，数仓分层就不在这次谈了，这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分，同时会引申出主题划分这个对于数仓工程师来说是必备的能力，比如当你面临着一个新业务的开启，需要从0到1开始搭建数据仓库或者数据集市，这时候就要考虑到主题域和主题的合理划分。二、数仓建设的步骤1. 主题划分4. 输出总线矩阵即业务过程和维度，组建成的矩阵5. 数仓分层设计模型表6. 4. ：「数仓建设篇」数仓主题域划分另外，公众号有海量大数据领域资料欢迎领取。同时也欢迎大家加我微信，拉你进大数据技术交流群，一同成长。图片
3.8K01编辑于 2022-10-31
来自专栏机器学习/数据可视化
数仓分层
数仓分层数据分层是数据仓库设计中一个十分重要的环节，良好的分层设计能够让整个数据体系更容易被理解和使用。本文介绍的是如何理解数据仓库中各个分层的作用。图解数据分层何为数仓DW Data warehouse（可简写为DW或者DWH）数据仓库，是在数据库已经大量存在的情况下，它是一整套包括了etl、调度、建模在内的完整的理论体系。数仓分层中每个层的作用是什么？ …… 在实际的工作中，我们都希望自己的数据能够有顺序地流转，设计者和使用者能够清晰地知道数据的整个声明周期，比如下面左图。
94410编辑于 2023-08-23
来自专栏最新最全的大数据技术体系
最新数仓面试题_知行教育数仓项目
4、OLTP和OLAP分别是什么？有什么区别？ 5、项目是如何分层的 6、数仓一般怎么做分层处理呢？ 7、数仓分层的作用是什么？ 8、项目中有做按照主题分析吗？数据仓库主要用于数据挖掘和数据分析，辅助领导做决策；它们的主要区别体现在数仓是综合的或提炼的，数据库是细节的，数仓主要用星型模型或雪花模型；面向分析，支持决策需求；而数据库用的是实体-关系（E-R） 4、OLTP和OLAP分别是什么？有什么区别？ 5、项目是如何分层的一般分成三层 ODS DW ADS 也会有Dimen层 6、数仓一般怎么做分层处理呢？ ODS——》DWD——》DWM——》DWS 7、数仓分层的作用是什么？同时对事务的支持性不行适用的场景：数仓的特性很大一部分是针对列的过滤，列的搜索，列的匹配，所以很多数仓结构比较适合使用列存储列存储也比较适合做OLAP 30、什么是Hive的分区？
1.9K21发布于 2021-04-09
来自专栏小道
数仓如何设计
一、数仓为什么要分层？合理的数据仓库分层一方面能够降低耦合性，提高重用性，可读性可维护性，另一方面也能提高运算的效率，影响到数据需求迭代的速度，近而影响到产品决策的及时性。建立数据分层可以提炼公共层，避免烟囱式开发，可见一个合适且合理的数仓分层是极其重要。（4）确定事实此处的“事实”一词，指的是业务中的度量值，例如订单金额、下单次数等。在DWD层，以业务过程为建模驱动，基于每个具体业务过程的特点，构建最细粒度的明细层事实表。数仓建设是一个不断迭代的过程，数据建模同样是一个不断迭代的过程。同时，业务是不断变化的，建模人员对业务的理解也是变化的，这些也就注定了建模是一个迭代过程。由于数仓的建设是与业务息息相关的，数仓建设的方法论仅仅只是指引我们构建数仓的一个方向，在实际的落地执行过程中会存在各种各样的问题，且不可被这些理论所禁锢。简单一句话就是：合适就好。
1.9K30发布于 2021-04-13
来自专栏Java
数仓分层架构
数仓分层架构数仓（Data Warehouse）是企业中用于存储和管理大量结构化和非结构化数据的重要组成部分。为了有效管理和利用这些数据，数仓通常采用分层架构，包括原始数据层、数据处理层和数据应用层。每个层级都承担着特定的任务，以确保数据的完整性、可靠性和可用性，从而支持企业的数据驱动决策和业务应用。 1. 原始数据层原始数据层是数仓架构的基础，主要用于存储原始的、未经处理的数据。这些数据来自各个业务系统和数据源，包括日志数据、交易数据、用户行为数据等。
47110编辑于 2025-01-21
来自专栏Snova数据仓库
Snova数仓简介
Snova为您提供简单、快速、经济高效的PB级云端数据仓库解决方案。借助于Snova，您可以在数分钟内创建拥有数百节点的企业级云端数据仓库，并高效的完成日常维护工作；也可以使用丰富的Postgre开源生态工具，实现对Snova中海量数据的即时查询分析、ETL处理及可视化探索；还可以借助其云端数据无缝集成特性，轻松分析位于COS、CDB、ES等数据引擎上的PB级数据。
2.5K20发布于 2018-08-21
来自专栏全栈程序员必看
数据建模与数仓建模_数仓建模的几种方式
数据仓库的设计始于数据模型，企业的数据模型适用于操作型环境，而修改后的模型适用于数仓，其实就是业务模型—> 概念模型—>逻辑模型—>物理模型的这一过程版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人
87540编辑于 2022-11-15
来自专栏chimchim要努力变强啊
数仓分层设计
分层目的二、分层架构概览三、详细分层设计 1.ODS (opreational data store) 2.DWD(data warehouse detail) 3.DIM（dimension） 4. DWS(data warehouse service) 5.ADS（Application Data Service） ---- 一、分层目的数仓分层的目的是：逐层解耦，减少重复计算，降低烟囱式开发不重不漏，确保每个表都在一个域里，且只在一个域里（精确定位） 2.每个域下都可以根据需要再分子域，不限定层级（最自由方便） 3.如果分子域就不能放表，表只放在最底层的域中（树状目录管理时更方便） 4. （4）.确定维度维度就是看事情的角度，5W1H(when、where、who、what、why、how) 示例：时间维度、地区维度、用户维度、商品维度（5）.确定事实事实即业务中的度量值示例示例：用户运营表用户id,浏览次数，登陆次数，购买次数，退款次数，确认收货次数
89110编辑于 2022-11-13
来自专栏数仓建模
数仓问题思考
2、建模相关2.1、仓模型的好坏有评价标准吗？有哪些评价的维度？如何持续化治理？2.2 数据一致性问题3、产品相关3.1.关于用户体验的事情如何设计和落地的？ 4、组织架构：4.1.团队的组织结构划分？有哪几个方向？各自规模如何？各自工作的目标是什么？4.2.演进路径有哪些特征，即有没有什么代表性的特征事件？组织结构做过哪些调整？ 5、职业规划5.1、数仓工程师成长的脉络图，或者说知识架构图？5.2、发展之路上需要哪些核心能力，每个阶段需要专注提升哪些能力。
61960编辑于 2022-09-05
来自专栏全栈程序员必看
数仓拉链表
zhrlzlx --离职类型 from ods.etl_ems t1 where t1.inc_day = '${v_day_1ago}' ) t2 left join (select t4. emp_num --工号 ,t4.curr_org_id --当前部门组织id ,t4.org_code --组织名称 ,t4.curr_org_name --组织代码 ,t4.hire_date --入职日期 ,t4.date_from --调入当前网络时间 ,t4.cancel_date --离职日期 ,t4.cancel_flag --离职标识 ,t4.zhrlzlx --离职类型 from ods.etl_ems t4 where t4.inc_day = '${v_day_2ago}' ) t3 on
2.3K21编辑于 2022-11-03
来自专栏全栈程序员必看
数仓分层简介(实时数仓架构)
数仓分层简介 1.数仓分层好处：复杂问题简单化；减少重复开发；隔离原始数据。 2.数仓分层具体实现 ODS(Operation Data Store)层:原始数据层，存原始数据，直接加载原始日志、数据 DWD(Data Warehouse Detail)层：明细数据层也有叫DWI
1.2K30编辑于 2022-08-01
来自专栏全栈程序员必看
数仓搭建ODS层_中心仓模式
1、数仓ODS层 1）保持数据原貌不做任何修改，起到备份数据的作用。 2）数据采用LZO压缩，减少磁盘存储空间。100G数据可以压缩到10G以内。 4）创建外部表。在企业开发中，除了自己用的临时表，创建内部表外，绝大多数场景都是创建外部表。 2020-06-14' "$do_date" 2020年 06月 18日星期四 21:02:08 CST 3）总结：（1）单引号不取变量值（2）双引号取变量值（3）反引号`，执行引号中命令（4） `coupon_name` STRING COMMENT '购物券名称', `coupon_type` STRING COMMENT '购物券类型 1 现金券 2 折扣券 3 满减券 4
1.2K10编辑于 2022-11-08
来自专栏全栈程序员必看
数仓搭建DWD层
1、数仓DWD层 1）对用户行为数据解析。 2）对业务数据采用维度模型重新建模。 artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency> </dependencies> （4） warehouse/gmall/dwd/dwd_comment_info/' TBLPROPERTIES ("parquet.compression"="lzo"); 2）分区规划 3）数据装载 4） warehouse/gmall/dwd/dwd_order_detail/' TBLPROPERTIES ("parquet.compression"="lzo"); 2）分区规划 3）数据装载 4） '/warehouse/gmall/dwd/dwd_cart_info/' TBLPROPERTIES ("parquet.compression"="lzo"); 2）分区规划 3）数据装载 4）
1.1K20编辑于 2022-09-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

知数仓名，懂数仓义

数仓入门篇-数仓分层

数仓设计和规范—数仓背景知识

数仓设计和规范—数仓构建流程

数仓分层ods_数仓用来干嘛

数仓分层

数仓分层

「数仓建设篇」数仓主题域划分

数仓分层

最新数仓面试题_知行教育数仓项目

数仓如何设计

数仓分层架构

Snova数仓简介

数据建模与数仓建模_数仓建模的几种方式

数仓分层设计

数仓问题思考

数仓拉链表

数仓分层简介(实时数仓架构)

数仓搭建ODS层_中心仓模式

数仓搭建DWD层

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐