首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据指象

    名,懂

    做数据开发不能绕过数据仓库的建设,是数据分析/数据挖掘的基础料,更是描述一个企业蓝图的智库。 如何打造出一个反映企业全局的视图是“路漫漫其修远兮”的任重远道; 在数据公众号“数据指象”的上一篇推文《矛盾的演进之旅》中,描述了由简入繁的其中道理。今天我们接着了解数的名义。 数据集成性:集成是最重要的特点之一,也是突出与传统数据库的特性之一;没有集成数就没有价值;只有将:同义不同名、同名不同义、多数据源、码值分解等等杂乱无章的数据,以集成就行统一、进行归一、进行编排形成一致性统一的的 非易失性:不易丢失数据是的基本属性,承接经年累月的数据输入,保存历史的数据细节,在时间的作用慢慢地聚沙成塔,让微小的数据也能发出耀眼的光芒。 具体中粒度如何选择,后续将分享如何构建双粒度数 周末快乐

    90720编辑于 2022-04-27
  • 入门篇-分层

    整体架构图解直接看分层的整体层级图各层级详解ODS层-操作数据层定义:数据仓库的“缓冲区”或“贴源层”。 核心作用:隔离风险:避免复杂的清洗逻辑直接影响源系统,也避免源系统变更直接击穿。历史回溯:源系统通常只保留近期数据或覆盖更新,ODS层通过全量或增量快照保留历史状态。 它是的字典中心,确保全公司对于用户、商品、城市的定义是统一的。核心作用:统一口径:避免不同报表中“北京市”和“北京”被算作两个城市。 DWD层-明细数据层定义:的核心层。基于ODS数据进行清洗、规范化、脱敏、维度关联后生成的明细事实表。核心作用:数据清洗:去除脏数据、统一枚举值(如性别统一为0/1)、空值填充。 避免重复计算:DWS层沉淀了通用的日/月汇总,如果有10个报表都需要“日销售额”,它们都去读DWS,而不是每个人都去扫一遍DWD的亿级明细。

    43010编辑于 2026-03-13
  • 来自专栏码农小胖哥的码农生涯

    10分钟了解啥是

    2 2.1 简介 ? 发展 随着人类IT发展,数据越来越多被产生,并且这些数据还可能跨部门,跨业务。如何把数据集成起来进行OLAP是个巨大挑战。 发展 对于可以理解为原来各个数据孤岛中的数据可能存储位置、存储格式、编程语言等各个方面不同。要做的就是把数据按照所需格式提取出来,进行转换、过滤、清洗。 这一层的数据一般是遵循数据库第三范式的,在DW层会保存BI系统中所有的历史数据,例如保存10年的数据。 集市层构建的好坏有一个比较好的衡量标准就是是否可以满足超过80%的应用层数据需要,剩下的20%来源于层。 2.4 元数据介绍 2.4.1 元数据定义 的元数据Metadata是关于数据仓库中数据的数据。

    1.3K20发布于 2021-06-24
  • 来自专栏sowhat1412

    10分钟了解啥是

    2 2.1 简介 发展 随着人类IT发展,数据越来越多被产生,并且这些数据还可能跨部门,跨业务。如何把数据集成起来进行OLAP是个巨大挑战。 发展 对于可以理解为原来各个数据孤岛中的数据可能存储位置、存储格式、编程语言等各个方面不同。要做的就是把数据按照所需格式提取出来,进行转换、过滤、清洗。 这一层的数据一般是遵循数据库第三范式的,在DW层会保存BI系统中所有的历史数据,例如保存10年的数据。 集市层构建的好坏有一个比较好的衡量标准就是是否可以满足超过80%的应用层数据需要,剩下的20%来源于层。 2.4 元数据介绍 2.4.1 元数据定义 的元数据Metadata是关于数据仓库中数据的数据。

    3.8K10编辑于 2022-09-20
  • 来自专栏个人总结系列

    设计和规范—背景知识

    数据仓库的分层       基于数据仓库模型理论指导,以数据分析,统计指标为导向,为了能够记录数据的历史,便于处理业务变化,把复杂问题简单化,通过空间换时间提高数据访问效率,数据集成考虑,在数实际开发过程中进行分层处理 从上往下看对应数据仓库分层如下: image.png 从分层开发来看: 流程.png 附:阿里数据仓库分层 1.分层和作用 image.png 2.数据分层架构 分层架构.png 3.网易数据架构

    3.2K01发布于 2020-11-07
  • 来自专栏个人总结系列

    设计和规范—构建流程

    ② 维度:维度是度量的环境,是我们观察业务的角度,如时间,地点等,用来反映业务的一类属性 。其中描述维度的是 属性,即维度属性,是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。 ③ 度量:度量是指标产生的原始数据,或者是指标的结果值,度量通常为数值型数据,作为事实逻辑表的事实。 ④ 指标:指标分为原子指标和派生指标。原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,是具有明确业务含义的名词 ,体现明确的业务统计口径和计算逻辑,例如支付金额。      原子指标=业务过程+度量,如订单数量,支付金额。      派生指标=时间周期(When)+修饰词(How)+原子指标,派生指标可以理解为对原子指标业务统计范围的圈定,如用户近1日通过支付宝支付金额,用户近30日通过手机APP产生的订单数量。

    1.8K21发布于 2021-07-01
  • 来自专栏全栈程序员必看

    分层ods_用来干嘛

    中单引号和双引号区别 ODS层日志表加载数据脚本 ODS层(业务数据) 1,活动信息表 2, 活动规则表 3,一级品类表 4,二级品类表 5,三级品类表 6,编码字典表 7,省份表 8,地区表 9,品牌表 10 100G数据可以压缩到10G以内。 3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。 4)创建外部表。 org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION '/warehouse/gmall/ods/ods_base_trademark/'; 10

    1.2K20编辑于 2022-11-08
  • 来自专栏大数据数仓建设

    建设篇」主题域划分

    一、前言数据仓库具有面向主题的特性,那么就会有主题的概念,建设是遵循纵向分层开发,横向划分主题域设计,分层就不在这次谈了,这次我会结合本人数工作实践总结的经验来聊聊主题域划分,同时会引申出主题划分 这个对于工程师来说是必备的能力,比如当你面临着一个新业务的开启,需要从0到1开始搭建数据仓库或者数据集市,这时候就要考虑到主题域和主题的合理划分。二、建设的步骤1. 业务调研开发侧是承上对接业务研发侧&承下对接数据分析侧,在数建设前期要对上游业务过程和对下游数据分析指标体系有所了解和熟知,然后拉齐上下游沟通数据口径和数搭建。2. 主题域划分3. 分层设计模型表6. 公共层表迭代升级三、主题和主题域下面结合本人对搬家业务的建设,进行主题域划分和主题划分实践,当然项目的大小决定着这是一个小型的数据集市 还是 企业级的数据仓库。1. :「建设篇」主题域划分 另外,公众号有海量大数据领域资料 欢迎领取。同时也欢迎大家加我微信,拉你进大数据技术交流群,一同成长。图片

    3.8K01编辑于 2022-10-31
  • 来自专栏BigData_Flink

    分层

    复杂问题简单化 隔离原始数据(后期统计和真实数据解耦) 数据复用性提高 数据结构更清晰 统一数据口径 A2 优缺点 优点 效率高 缺点 预计算 占空间 A3 图解 A4 实现 A4 位置 A5 相关 项目

    83210发布于 2021-04-12
  • 来自专栏全栈程序员必看

    分层

    000概述 分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更容易理解和使用 本文的大纲 001,介绍数据分层的作用 002,分层设计的原则以及介绍一种通用的数据分层设计

    94421编辑于 2022-07-21
  • 来自专栏机器学习/数据可视化

    分层

    分层 数据分层是数据仓库设计中一个十分重要的环节,良好的分层设计能够让整个数据体系更容易被理解和使用。本文介绍的是如何理解数据仓库中各个分层的作用。 图解数据分层 何为DW Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。 分层中每个层的作用是什么? …… 在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道数据的整个声明周期,比如下面左图。

    94510编辑于 2023-08-23
  • 来自专栏数据仓库

    数据仓库(10)拉链表开发实例

    需要数据仓库资料可以点击这个领取数据仓库(13)大数据经典最值得阅读书籍推荐 参考资料:数据仓库(01)什么是数据仓库,有什么特点数据仓库(02)、大数据与传统数据库的区别数据仓库(03) 建模之星型模型与维度建模数据仓库(04)基于维度建模的KimBall架构数据仓库(05)Kimball与Inmon架构的对比数据仓库(06)分层设计数据仓库(07)规范设计数据仓库( 08)事实表和维度表技术 数据仓库(09)缓慢变化维度数据的处理数据仓库(10)拉链表开发实例数据仓库(11)什么是大数据治理,数据治理的范围是哪些数据仓库(12)数据治理之数据管理实践心得数据仓库 (13)大数据经典最值得阅读书籍推荐

    89090编辑于 2023-01-18
  • 来自专栏最新最全的大数据技术体系

    最新面试题_知行教育项目

    5、项目是如何分层的 6、一般怎么做分层处理呢? 7、分层的作用是什么? 8、项目中有做按照主题分析吗? 数据仓库主要用于数据挖掘和数据分析,辅助领导做决策; 它们的主要区别体现在数是综合的或提炼的,数据库是细节的,主要用星型模型或雪花模型;面向分析,支持决策需求;而数据库用的是实体-关系(E-R) 5、项目是如何分层的 一般分成三层 ODS DW ADS 也会有Dimen层 6、一般怎么做分层处理呢? ODS——》DWD——》DWM——》DWS 7、分层的作用是什么? 10、什么是事实表,什么是维度表,有什么区别和联系 事实:就是事件的意思。表示的是系统中一个真实产生的事件信息。 同时对事务的支持性不行 适用的场景: 的特性很大一部分是针对列的过滤,列的搜索,列的匹配,所以很多数结构比较适合使用列存储 列存储也比较适合做OLAP 30、什么是Hive的分区?

    1.9K21发布于 2021-04-09
  • 来自专栏小道

    如何设计

    一、为什么要分层?   合理的数据仓库分层一方面能够降低耦合性,提高重用性,可读性可维护性,另一方面也能提高运算的效率,影响到数据需求迭代的速度,近而影响到产品决策的及时性。 建立数据分层可以提炼公共层,避免烟囱式开发,可见一个合适且合理的分层是极其重要。 跟事实表相比,行数相对较小:通常< 10万条   3. 内容相对固定:编码表 事实表(类比动词)   事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。 建设是一个不断迭代的过程,数据建模同样是一个不断迭代的过程。同时,业务是不断变化的,建模人员对业务的理解也是变化的,这些也就注定了建模是一个迭代过程。 由于的建设是与业务息息相关的,建设的方法论仅仅只是指引我们构建的一个方向,在实际的落地执行过程中会存在各种各样的问题,且不可被这些理论所禁锢。简单一句话就是:合适就好。

    1.9K30发布于 2021-04-13
  • 来自专栏Snova数据仓库

    Snova简介

    Snova为您提供简单、快速、经济高效的PB级云端数据仓库解决方案。借助于Snova,您可以在数分钟内创建拥有数百节点的企业级云端数据仓库,并高效的完成日常维护工作;也可以使用丰富的Postgre开源生态工具,实现对Snova中海量数据的即时查询分析、ETL处理及可视化探索;还可以借助其云端数据无缝集成特性,轻松分析位于COS、CDB、ES等数据引擎上的PB级数据。

    2.5K20发布于 2018-08-21
  • 来自专栏Java

    分层架构

    分层架构 (Data Warehouse)是企业中用于存储和管理大量结构化和非结构化数据的重要组成部分。 为了有效管理和利用这些数据,通常采用分层架构,包括原始数据层、数据处理层和数据应用层。每个层级都承担着特定的任务,以确保数据的完整性、可靠性和可用性,从而支持企业的数据驱动决策和业务应用。 1. 原始数据层 原始数据层是架构的基础,主要用于存储原始的、未经处理的数据。这些数据来自各个业务系统和数据源,包括日志数据、交易数据、用户行为数据等。

    47210编辑于 2025-01-21
  • 来自专栏全栈程序员必看

    数据建模与建模_建模的几种方式

    数据仓库的设计始于数据模型,企业的数据模型适用于操作型环境,而修改后的模型适用于,其实就是业务模型—> 概念模型—>逻辑模型—>物理模型的这一过程 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人

    87540编辑于 2022-11-15
  • 来自专栏chimchim要努力变强啊

    分层设计

    detail)  3.DIM(dimension)  4.DWS(data warehouse service)  5.ADS(Application Data Service) ---- 一、分层目的 分层的目的是 示例: 用户运营表 用户id,浏览次数,登陆次,购买次数,退款次数,确认收货次数

    89110编辑于 2022-11-13
  • 来自专栏数仓建模

    问题思考

    2、建模相关2.1、模型的好坏有评价标准吗?有哪些评价的维度?如何持续化治理?2.2 数据一致性问题3、产品相关3.1.关于用户体验的事情如何设计和落地的? 5、职业规划5.1、工程师成长的脉络图,或者说知识架构图?5.2、发展之路上需要哪些核心能力,每个阶段需要专注提升哪些能力。

    61960编辑于 2022-09-05
  • 来自专栏全栈程序员必看

    拉链表

    需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等; 变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10 方案三 每天都保存增量数据,这种方案相比较方案一二的话,数据量变少了,也记录了每条数据的变化.但是数据量还是比拉链表多,同时它要求某天的历史数据查询效率比较低,比较繁琐.比如你要求2021年10月01号的在职人数 ,你就需要判断入职日期小于等于10月01号的,用lead函数获取下条数据,判断下条数据的离职日期是否大于2021年10月01号.

    2.3K21编辑于 2022-11-03
领券