首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据饕餮

    数据仓库专题(7)-维度建模10基本原则

    遵循这些原则进行维度建模可以保证数据粒度合理,模型灵活,能够适应未来的信息资源,违反这些原则你将会把用户弄糊涂,并且会遇到数据仓库障碍。 二、正文 原则1、载入详细的原子数据到维度结构中    维度建模应该使用最基础的原子数据进行填充,以支持不可预知的来自用户查询的过滤和分组请求,用户通常不希望每次只看到一个单一的记录,但是你无法预测 当然,原子数 据也可以通过概要维度建模进行补充,但企业用户无法只在汇总数据上工作,他们需要原始数据回答不断变化的问题。 原则10、不断平衡需求和现实,提供用户可接受的并能够支持他们决策的DW/BI解决方案    维度建模需要不断在用户需求和数据源事实之间进行平衡,才能够提交可执行性好的设计,更重要的是,要符合业务的需要, 需求和事实之间的平衡是DW/BI 从业人员必须面对的事实,无论是你集中在维度建模,还是项目策略、技术/ETL/BI架构或开发/维护规划都要面对这一事实。

    1.6K50发布于 2019-01-14
  • 来自专栏全栈程序员必看

    最流行的三数据建模工具

    只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。数据建模是通过定义和分析数据需求,以支持信息系统内的业务流程。 以上看来,数据建模至关重要。 数据建模过程需要专业的建模人员,业务人员以及潜在信息系统的用户紧密工作在一起。 数据建模是认识数据的过程,数据模型是数据建模的输出模型有很多种,例如企业数据模型,物理模型,逻辑模型,业务模型,数据使用模型等等。 本文列出的工具都是精挑细选的数据建模工具。 PowerDesigner PowerDesigner是目前数据建模业界的领头羊。 创始人兼CEO王琤:曾任职erwin全球研发总监,拥有超过十年以上数据建模数据管理的从业经验。

    10.8K21编辑于 2022-09-05
  • 来自专栏凹凸玩数据

    盘点 10 数据库!

    大家好,我是小五 DB-Engines 最近发布了 2021 年 9 月份的数据库排名。该网站根据数据库管理系统的受欢迎程度对其进行排名,实时统计了 378 种数据库的排名指数。 前 30 名的排行情况详见下图,前10数据库 用线段做了分割。同时在文末,会免费赠送给大家一些数据库书籍! 跌幅榜情况 较去年同期,本月三霸主集体暴跌再次霸占了“同期跌幅榜”。 虽然各大开源类数据库百花齐放,然而,在 DB-Engines 全球数据库排行榜上,Oracle 和 MySQL 依然是世界上最受欢迎的商业和开源类数据库,而且领跑优势还在继续扩大。 小众数据库不可小觑 数据库相关从业人员可以将 DB-Engines 数据库排名作为参考,大数据时代发展速度之快超乎我们的想象,新的数据库产品仍然在不断诞生,如果你的需求比较特殊,大众数据库产品无法很好地满足你 每天数据增量十多亿,近百万次查询请求。 快手内部也在使用 ClickHouse,存储总量大约 10PB, 每天新增 200TB, 90% 查询小于 3S。

    2.5K10发布于 2021-10-18
  • 来自专栏全栈程序员必看

    数仓建模与分析建模_数据仓库建模数据挖掘建模

    ;设计一个时间非常的分区,如 9999-12-31,存放截至当前未结束的数据 已结束的数据存放到相应的分区,存放未结束数据分区,数据量不会太大,ETL 性能好 无存储浪费,数据全局唯一 业务系统可能无法标识业务实体的结束时间 [外链图片转存中…(img-uQis5F2c-1645262440294)] 范式 第一范式:属性不可分割 第二范式:消除不分函数依赖 第三范式:消除传递依赖 关系建模与维度建模 关系建模:将复杂的数据抽象为两个概念 维度建模:模型相对清晰、简洁。维度模型以数据分析作为出发点,不遵循三范式,故数据存在一定的冗余。维度模型面向业务,将业务用事实表和维度表呈现出来。 4. 数仓建模方法 ODS: 数据类型:用户行为数据、业务数据 规划处理 保持数据源不做修改,起到备份数据的作用 数据采用压缩,减少磁盘存储空间 创建分区表,防止后续的全表扫描 DWD: DWD层需构建维度模型 维度建模一般按照以下四个步骤:选择业务过程→声明粒度→确认维度→确认事实。

    1.9K20编辑于 2022-11-09
  • 来自专栏23号杂货铺

    『 懒人10分钟—大数据篇(一)』数据建模是什么?

    —— 23号老板 0 1 概念 原创:lianxiaobao 文章概览 |— 概念 |— 建模方法 |— 模型层次划分 |— 数据模型规范 |— 建模指导 ODS |— ODS常用的设计方法 |— 应用场景 1、什么是数据模型? 2、典型数据仓库建模方法 - 范式模型 - ER实体关系模型 - 纬度模型 建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表 3、模型层次划分 ? 建模指导 ODS,全称是Operational Data Store 操作数据存储。 2、数据质量处理 (1) 数据质量的基本要求是数据的五特性:准确性,及时性,一致性,完整性,逻辑性。 (2) 数据监控 一般是串行或者并行。

    10K41发布于 2019-09-27
  • 来自专栏个人分享

    数据挖掘10算法详细介绍

     想初步了解下怎样数据挖掘,看到一篇不错的文章转载过来啦~ 转自:http://blog.jobbole.com/89037/ 在一份调查问卷中,三个独立专家小组投票选出的十最有影响力的数据挖掘算法 只有这样之后 SVM 才有能力对新数据进行分类。 为什么我们要用 SVM 呢? SVM 和 C4.5体上都是优先尝试的二类分类器。 举个 AdaBoost 算法的例子:我们开始有3个弱学习器,我们将在一个包含病人数据数据训练集上对他们做10轮训练。数据集里包含了病人的医疗记录各个细节。 在10轮结束的时候,我们剩下了一个带着不同权重的已经训练过的联合学习分类器,之后重复训练之前回合中被误分类的数据。 这是个监督还是非监督算法? 第四步:计算其他类时也做类似的计算: 因为0.252于0.01875,Naive Bayes 会把长形,甜的还是黄色水果分到香蕉的一类中。 这是个监督算法还是非监督算法呢?

    2.3K40发布于 2018-09-06
  • 来自专栏大数据学习与分享

    数据建模-维度建模-维度设计

    作为维度建模的核心,我们在企业级的数据仓库中必须保证维度的唯一性。以淘宝商品维度为例,我们有且只允许有一个维度定义。 第二步:确定主维度表。 (3)同一类数据基于范式建模,拆分成同一类型数据库中多张的物理表,比如商品,有商品主表和商品扩展表,商品主表存商品基本信息;商品扩展表存储商品特殊信息,如不同产品线定制化的信息等;比如会员,有会员主表和会员扩展表 相同和相似字段的字段类型的统一; (3)公共字段及枚举值的统一:公共字段及枚举值的类型、命名方式等统一; (4)业务含义相同的表的统一:相同含义的业务表进行聚合统一; 主要依据高内聚、低耦合的理念,在物理实现中,将业务关系、 源系统影响差异小的进行整合;业务关系小、源系统影响差异的进行分而置之。 但在阿里巴巴数据仓库建设的实践过程中,虽然我们使用的是Kimball的维度建模的理论,但实际并未使用代理键。我们是如何处理缓慢变化维度,如何记录变化历史的呢?为什么不使用代理键呢?  

    1.6K31编辑于 2023-09-06
  • 来自专栏全栈程序员必看

    数据数据建模

    今天给大家分享一下 数据开发工作中数据建模的步骤, 第一步:选择模型或者自定义模型 这第一步需要我们基于业务问题 如果没有现成的模型可用,就需要我们自定义模型了,自定义模型不是一件容易的事情,需要非常nb的数学基础和科研精神,当前绝大多数人所谓的建模,都只是选择一个已有的数学模型来工作而已。 这一步,就需要将可用的模型开发出来,并部署在数据分析系统中,然后可以形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。 应用模型,就是将模型应用于真实的业务场景。 构建模型的目的,就是要用于解决工作中的业务问题的,比如预测客户行为,比如划分客户群,等等。 实际上,模型优化不仅仅包含了对模型本身的优化,还包含了对原始数据的处理优化,如果数据能够得到有效的预处理,可以在某种程度上降低对模型的要求。

    1.4K20编辑于 2022-08-18
  • 来自专栏MIKE笔记 技术教程

    数学建模【三模型+十算法】

    文章目录 前言 一、三模型 1️⃣预测模型 2️⃣优化模型 3️⃣评价模型 二、十算法 1️⃣蒙特卡罗算法 2️⃣数据拟合、参数估计、插值等数据处理算法 3️⃣线性规划、整数规划、多元规划、二次规划等规划类问题 4️⃣图论算法 5️⃣动态规划、回溯搜索、分治算法、分支定界 6️⃣最优化理论的三非经典算法 7️⃣网格算法和穷举法 8️⃣一些连续离散化方法 9️⃣数值分析算法 图象处理算法 ---- 前言 提示 :文章为个人学习笔记备忘录 ---- 一、三模型 1️⃣预测模型 预测模型:神经网络预测、灰色预测、拟合插值预测(线性回归)、时间序列预测、马尔科夫链预测、微分方程预测、Logistic 模型等等。 二、十算法 1️⃣蒙特卡罗算法 该算法又称随机性模拟算法,是通过计算 机仿真来解决问题的算法,同时可以通过模拟可以来检验自己 模型的正确性,是比赛时必用的方法 2️⃣数据拟合、参数估计、插值等数据处理算法 比赛中通常 会遇到大量的数据需要处理,而处理数据的关键就在于这些算 法,通常使用 Matlab 作为工具 3️⃣线性规划、整数规划、多元规划、二次规划等规划类问题 建模竞赛大多数问题属于最优化问题

    1.1K10编辑于 2023-03-22
  • 来自专栏波波烤鸭

    PowerDesigner数据建模

    PowerDesigner安装 云盘地址:https://pan.baidu.com/s/1MZnQhPZ6ityza9N9nAD3bw 提取码:8qpi 傻瓜式安装 E-R图 E-R图(实体关系图) 1.创建模型 生成数据库脚本 ? ? ? ? ?

    82841发布于 2019-04-02
  • 来自专栏CDA数据分析师

    数据挖掘与数据建模的9定律(深度长文 收藏细读!)

    以及它们是如何相关的; 数据预处理就是利用业务知识来塑造数据,使得业务问题可以被提出和解答(更详尽的第三条—准备律); 建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性 最简单的解释可以概括为“数据是困难的”,经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。 这是数据预处理重要的原因,并且在数据挖掘过程中占有如此的工作量,这样数据挖掘者可以从容地操纵问题空间,使得容易找到适合分析他们的方法。 有两种方法“塑造”这个问题空间。 第一种方法是将数据转化为可以分析的完全格式化的数据,比如,大多数数据挖掘算法需要单一表格形式的数据,一个记录就是一个样例。 准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据改变时,用于同一口径的预测数据,其预测结果变化有多大(或多小)。

    1.8K50发布于 2018-02-11
  • 来自专栏大数据

    10数据挖掘算法及其简介

    Naive Bayes 10. CART 1.C4.5 C4.5以决策树的形式构造了一个分类器。为了做到这一点,C4.5给出了一组已经分类的数据。 分类器是数据挖掘中的一个工具,它取一堆数据来表示我们想要分类的东西,并试图预测新数据属于哪个类。 例如,假设在患者数据集中。 4.Apriori Apriori算法学习关联规则,并应用于包含大量事务的数据库。 关联规则学习是一种数据挖掘技术,用于学习数据库中变量之间的相互关系和关系。 例如,假设我们有一个超市交易数据库。 在统计数据中,EM算法迭代并优化了查看观测数据的可能性,同时评估未观测变量的统计模型参数。 10.CART CART代表分类和回归树。它是一种决策树学习技术,它输出分类或回归树。和C4.5一样,CART是一个分类器。 分类树是否像决策树?分类树是决策树的一种类型。分类树的输出是一个类。

    1.2K70发布于 2018-01-19
  • 来自专栏ATYUN订阅号

    10数据挖掘算法及其简介

    Naive Bayes 10. CART 1.C4.5 C4.5以决策树的形式构造了一个分类器。为了做到这一点,C4.5给出了一组已经分类的数据。 分类器是数据挖掘中的一个工具,它取一堆数据来表示我们想要分类的东西,并试图预测新数据属于哪个类。 例如,假设在患者数据集中。 4.Apriori Apriori算法学习关联规则,并应用于包含大量事务的数据库。 关联规则学习是一种数据挖掘技术,用于学习数据库中变量之间的相互关系和关系。 例如,假设我们有一个超市交易数据库。 在统计数据中,EM算法迭代并优化了查看观测数据的可能性,同时评估未观测变量的统计模型参数。 10.CART CART代表分类和回归树。它是一种决策树学习技术,它输出分类或回归树。和C4.5一样,CART是一个分类器。 分类树是否像决策树?分类树是决策树的一种类型。分类树的输出是一个类。

    1.2K130发布于 2018-03-06
  • 来自专栏全栈程序员必看

    领域建模数据建模

    本文重点主要是比较OO建模数据建模两者特点,这两者我们已经发现属于两个不同方向,也就是说,属于两个完全不同的领域,在J道其他文章里我们 其实已经把这两个领域上升为不同的学科,数据建模属于数学范畴思维 别小看这样一个小小包装,却决定了以后代码的维护性和扩展性, 打个比喻,日常生活中我们经常用各种盒子和袋子包装一些东西,这样做就是为了方便这些东西的携带或储藏,小到生活, 到客观世界每个地方,都是包装分类的影子 因为方法的不同,软件路线也就存在下面几个路线:完全面向对象类建模路线(J道网站和笔者一直致力于这种路线的推介); 一种是对象和关系数据库混合型,还有一种就是过去的完全关系数据库类型软件(如Foxpro/ Evans DDD可以说是近期与SOA相提并论的两重要技术思想,SOA是着重于软件集成方面;而EvansDDD才是着重我们软件开发上, 在大部分情况下,软件开发重要程度不亚于软件集成,但是因为软件开发方面开源力量冲击 领域建模属于与具体.NET或Java技术无关的设计思想,有人总是说:.NET比Java简单,其实这又是一个误区,如果都达到同样设计水准,无论使用.NET或Java,都需要付出同样的努力;那为什么有人觉得

    96230编辑于 2022-07-31
  • 来自专栏IT大咖说

    咖谈Kubernetes的建模应用

    说起建模,很多小伙伴都不陌生,就是为了理解某一事物而对该事物做出的某一种抽象,是对这个事物没有歧义的一种描述,也叫建立模型。 当然,建模也分系统建模数据建模等好多种类,那么今天,我们就来简单了解一下在Kubernetes环境下建模。 ? 既然谈到Kubernetes的建模,我们就需要简单了解Kubernetes架构,就像大多数小伙伴知道的那样,Kubernetes集群是具有双重角色的:Kubernetes代理和Kubernetes服务。 可是,每当我们操作的时候,可能都会想到一个问题,Kubernetes 能够大规模地为数据中心建模并通过控制器操作数据中心吗?

    63720发布于 2018-10-23
  • 来自专栏五分钟学算法

    10 算法

    与早期的排序算法相比(如冒泡算法),这些算法将排序算法提上了一个台阶。也多亏了这些算法,才有今天的数据发掘,人工智能,链接分析,以及大部分网页计算工具。 02 傅立叶变换 和快速傅立叶变换 ? 9 数据压缩算法 数据压缩算法有很多种,哪种最好?这要取决于应用方向,压缩mp3,JPEG和MPEG-2文件都不一样。 哪里能见到它们?不仅仅是文件夹中的压缩文件。 你正在看的这个网页就是使用数据压缩算法将信息下载到你的电脑上。除文字外,游戏,视频,音乐,数据储存,云计算等等都是。它让各种系统更轻松,效率更高。 10 随机数生成算法 ?

    52840发布于 2019-06-03
  • 来自专栏全栈程序员必看

    数据建模与数仓建模_数仓建模的几种方式

    数据模型 所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。 在开始介绍数据模型之前,我们先看一个东西,那就是算法与数据结构,我们知道算法是解决特定问题的策略,数据结构处理问题的数学模型,数据结构 有三要素,逻辑结构、存储结构、数据操作、这里的数据操作其实就是算法 ,例如我们定义的图的数据结构,然后在这个基础上对图进行操作形成特定的算法,例如深度遍历和广度遍历;我们的数据结构其实是针对特定的数据问题而抽象和设计的,也就是说一种数据结构针对的是一类特定的问题。 数据模型也一样,只不过数据结构是针对特定问题的,而数据模型是针对特定业务的,然后多业务进行抽象,形成了行业特征,在银行业,IBM 有自己的 BDWM(Banking data warehouse model 数据仓库的设计始于数据模型,企业的数据模型适用于操作型环境,而修改后的模型适用于数仓,其实就是业务模型—> 概念模型—>逻辑模型—>物理模型的这一过程 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人

    81140编辑于 2022-11-15
  • 来自专栏大数据与微服务架构

    数据挖掘与建模

    数据挖掘是基于统计学原理,利用机器学习中的算法工具实现价值信息的发现。机器学习是一种实现人工智能的方法,深度学习是实现机器学习的一种技术。 ? 四经典算法:分类、关联、聚类、回归 一、监督学习(通俗来说就是已知样本类别,即知道当前的样本是哪一类的样本。) 非线性分类经典算法包括K近邻(KNN)、支持向量机(SVM)、决策树(D Tree)、朴素贝叶斯(NB) 2、回归分析:反映事务数据属性在时间上的特征,预测数据间的相关关系,与分类区别在于,分类是预测目标的离散变量 二、无监督学习(事先没有任何训练数据样本,需要直接对数据进行建模,即不提供经验和训练样本,完全靠自己摸索) 1、关联分析:描述数据库中数据之间存在关系的规则。 模型发现:20世纪90年代的美国沃尔玛超市中,管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。

    1K30发布于 2020-04-11
  • 来自专栏斑斓

    MongoDB的数据建模

    MongoDB是一种面向Document的NoSQL数据库,如果我们还是按照RDB的方式来思考MongoDB的数据建模,则不能有效地利用MongoDB的优势;然而,我们也不能因为Document的灵活性 适度的建模是非常有必要的,尤其对于相对复杂的关联关系。因为在MongoDB中,处理这种关联关系既可以使用Link,也可以使用Embedded。 这种建模方式还带来另一种可能,就是原本Person->Tasks的one-to-N关系就可以变为N-to-N关系,因为一个Task可以被多个Person所拥有。 如果采用Embedded方式,则会导致Task数据的冗余。 one-to-few one-to-many one-to-squillions 但我认为该怎么实现关联,应该从Entity之间的领域关系来判断,我们可以引入DDD的Aggregation设计概念作为建模的依据

    1.2K60发布于 2018-03-07
  • 来自专栏全栈程序员必看

    数据建模

    1)定义:在设计数据库时,对现实世界进行分析、抽象、并从中找出内在联系,进而确定数据库的结构,这一过程就称为数据建模。 2)作用: 1. 模型能准确表达设计意图,更易于进行技术交流。 2. 3)数据建模步骤: 1.需求分析阶段 2.概念结构设计阶段:CMD 概念结构设计是整个数据库设计的关键。 3.逻辑数据模型:LDM 需要考虑数据的存储结构,是关系的还是面向对象的。对数据进行符合数据库设计范式的规范,但不关心物理数据库。 概念模型是把现实世界中实体和关系抽象到计算机世界,逻辑模型就是一种跟具体数据库无关的数据库模型,而物理模型是对某一款确定的数据库进行设计的数据库模型。 所以在数据库开发当中,先进行概念建模,然后进行逻辑建模,再而才进行物理模型的建模

    86210编辑于 2022-07-23
领券