首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CDA数据分析师

    数据挖掘与数据建模9定律(深度长文 收藏细读!)

    以及它们是如何相关的; 数据预处理就是利用业务知识来塑造数据,使得业务问题可以被提出和解答(更详尽的第三条—准备律); 建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性 最简单的解释可以概括为“数据是困难的”,经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。 这是数据预处理重要的原因,并且在数据挖掘过程中占有如此的工作量,这样数据挖掘者可以从容地操纵问题空间,使得容易找到适合分析他们的方法。 有两种方法“塑造”这个问题空间。 准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据改变时,用于同一口径的预测数据,其预测结果变化有多大(或多小)。 数据挖掘者应该在模型不损害业务理解和适应业务问题的情况下关注预测准确度、模型稳定性以及其它的技术度量。 9 变化律:所有的模式因业务变化而变化。 数据挖掘发现的模式不是永远不变的。

    1.8K50发布于 2018-02-11
  • 来自专栏钱塘大数据

    【盘点】数据挖掘与数据建模9条定律

    ,以及它们是如何相关的;   数据预处理就是利用业务知识来塑造数据,使得业务问题可以被提出和解答(更详尽的第三条—准备律);   建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性 最简单的解释可以概括为“数据是困难的”,经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。 这是数据预处理重要的原因,并且在数据挖掘过程中占有如此的工作量,这样数据挖掘者可以从容地操纵问题空间,使得容易找到适合分析他们的方法。   有两种方法“塑造”这个问题空间。 第一种方法是将数据转化为可以分析的完全格式化的数据,比如,大多数数据挖掘算法需要单一表格形式的数据,一个记录就是一个样例。 准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据改变时,用于同一口径的预测数据,其预测结果变化有多大(或多小)。

    58470发布于 2018-03-02
  • 来自专栏机器学习/数据可视化

    数据平滑9妙招

    今天给大家分享9常见数据平滑方法:移动平均Moving Average指数平滑Exponential Smoothing低通滤波器多项式拟合贝塞尔曲线拟合局部加权散点平滑LoessKalman滤波小波变换 指数平滑的主要特点包括:加权平滑:指数平滑使用指数权重来平滑数据。较新的数据点获得更高的权重,而较旧的数据点获得较低的权重。这意味着它对最近的数据更为敏感,从而更好地捕获了数据的最新趋势。 7, 8, 9])y = np.array([10, 8, 7, 6, 5, 4, 3, 2, 1])# 三阶多项式拟合degree = 3coefficients = np.polyfit(x, y Loess平滑通常用于探索性数据分析、数据可视化、时间序列分析和回归建模的预处理步骤。它可以帮助用户识别数据中的局部特性、趋势和周期性,从而更好地理解数据的结构。 这些滤波器的应用范围广泛,包括航空航天、自动驾驶汽车、机器人技术、金融建模和天气预测等领域。它们在数据平滑和状态估计方面提供了强大的工具。

    6K44编辑于 2023-10-13
  • 来自专栏PPV课数据科学社区

    【学习】数据挖掘与数据建模9个经验之谈

    ,以及它们是如何相关的; · 数据预处理就是利用业务知识来塑造数据,使得业务问题可以被提出和解答(更详尽的第三条—准备律); · 建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性 最简单的解释可以概括为“数据是困 难的”,经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。 数据预处理的目的是把数据挖掘问题转化为格式化的数据,使得分析技术(如数据挖掘算法)更容易利用它。 这是数据预处理重要的原因,并且在数据挖掘过程中占有如此的工作量,这样数据挖掘者可以从容地操纵问题空间,使得容易找到适合分析他们的方法。 有两种方法“塑造”这个问题空间。 准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据改变时,用于同一口径的预测数据,其预测结果变化有多大(或多小)。

    746110发布于 2018-04-19
  • 来自专栏全栈程序员必看

    最流行的三数据建模工具

    只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。数据建模是通过定义和分析数据需求,以支持信息系统内的业务流程。 以上看来,数据建模至关重要。 数据建模过程需要专业的建模人员,业务人员以及潜在信息系统的用户紧密工作在一起。 数据建模是认识数据的过程,数据模型是数据建模的输出模型有很多种,例如企业数据模型,物理模型,逻辑模型,业务模型,数据使用模型等等。 本文列出的工具都是精挑细选的数据建模工具。 PowerDesigner PowerDesigner是目前数据建模业界的领头羊。 创始人兼CEO王琤:曾任职erwin全球研发总监,拥有超过十年以上数据建模数据管理的从业经验。

    10.8K21编辑于 2022-09-05
  • 来自专栏全栈程序员必看

    数仓建模与分析建模_数据仓库建模数据挖掘建模

    ;设计一个时间非常的分区,如 9999-12-31,存放截至当前未结束的数据 已结束的数据存放到相应的分区,存放未结束数据分区,数据量不会太大,ETL 性能好 无存储浪费,数据全局唯一 业务系统可能无法标识业务实体的结束时间 [外链图片转存中…(img-uQis5F2c-1645262440294)] 范式 第一范式:属性不可分割 第二范式:消除不分函数依赖 第三范式:消除传递依赖 关系建模与维度建模 关系建模:将复杂的数据抽象为两个概念 维度建模:模型相对清晰、简洁。维度模型以数据分析作为出发点,不遵循三范式,故数据存在一定的冗余。维度模型面向业务,将业务用事实表和维度表呈现出来。 4. 数仓建模方法 ODS: 数据类型:用户行为数据、业务数据 规划处理 保持数据源不做修改,起到备份数据的作用 数据采用压缩,减少磁盘存储空间 创建分区表,防止后续的全表扫描 DWD: DWD层需构建维度模型 维度建模一般按照以下四个步骤:选择业务过程→声明粒度→确认维度→确认事实。

    1.9K20编辑于 2022-11-09
  • 来自专栏往期博文

    数学建模暑期集训9:灰色关联分析

    本专栏第23篇数学建模学习笔记(二十三)灰色关联分析记录了灰色关联分析的一些基本知识。本篇内容对数学原理不作赘述,对matlab程序进行一定的补充。 样本量多的情况还是使用一般方法,例如多元回归等… matlab代码: 所有指标均正向化: clear;clc load gdp.mat % 导入数据 一个6*4的矩阵 Mean = mean(gdp ); % 求出每一列的均值以供后续的数据预处理 gdp = gdp ./ repmat(Mean,size(gdp,1),1); %size(gdp,1)=6, repmat(Mean,6,1)可以将矩阵进行复制 end disp('正向化后的矩阵 X = ') disp(X) end %% 对正向化后的矩阵进行预处理 Mean = mean(X); % 求出每一列的均值以供后续的数据预处理 score / sum(score); % 归一化后的得分 [sorted_S,index] = sort(stand_S ,'descend') % 进行排序 里面有些相关自定义函数可参见 数学建模暑期集训

    52330编辑于 2022-06-14
  • 来自专栏往期博文

    数学建模番外篇9:Pyecharts绘图整理

    时间轴 树图 矩形树图 词云图 使用案例 使用时,只需要将数据替换成自己的即可,当然pyecharts的强大之处在于,所有图片都是动态可交互的,如果画图全部用它来画未免有些大炮打蚊子——大材小用了

    89110编辑于 2022-06-14
  • 来自专栏数据科学与人工智能

    数据】银行业9数据科学应用案例

    1 欺诈识别 2 管理客户数据 3 投资银行的风险建模 4 个性化营销 5 终身价值预测 6 实时和预测分析 7 客户细分 8 推荐引擎 9 客户支持 结论 1 欺诈识别 机器学习对于有效检测和防范涉及信用卡 3 投资银行的风险建模 风险建模对投资银行来说是一个高度优先考虑的问题,因为它有助于规范金融活动,并在定价金融工具时发挥最重要的作用。 这就是为什么风险模型对于银行来说显得非常重要,最好是通过掌握更多信息和储备数据科学工具来评估。现在,通过大数据的力量,行业内的创新者正在利用新技术进行有效的风险建模,从而实现更好的数据驱动型决策。 9 客户支持 杰出的客户支持服务是保持与客户长期有效关系的关键。作为客户服务的一部分,客户支持是银行业中一个重要但广泛的概念。实质上,所有银行都是基于服务的业务,因此他们的大部分活动都涉及服务元素。 原文链接:https://activewizards.com/blog/top-9-data-science-use-cases-in-banking/ 版权声明:作者保留权利,严禁修改,转载请注明原文链接

    4K30发布于 2018-07-30
  • 来自专栏大数据学习与分享

    数据建模-维度建模-维度设计

    作为维度建模的核心,我们在企业级的数据仓库中必须保证维度的唯一性。以淘宝商品维度为例,我们有且只允许有一个维度定义。 第二步:确定主维度表。 (3)同一类数据基于范式建模,拆分成同一类型数据库中多张的物理表,比如商品,有商品主表和商品扩展表,商品主表存商品基本信息;商品扩展表存储商品特殊信息,如不同产品线定制化的信息等;比如会员,有会员主表和会员扩展表 相同和相似字段的字段类型的统一; (3)公共字段及枚举值的统一:公共字段及枚举值的类型、命名方式等统一; (4)业务含义相同的表的统一:相同含义的业务表进行聚合统一; 主要依据高内聚、低耦合的理念,在物理实现中,将业务关系、 源系统影响差异小的进行整合;业务关系小、源系统影响差异的进行分而置之。 但在阿里巴巴数据仓库建设的实践过程中,虽然我们使用的是Kimball的维度建模的理论,但实际并未使用代理键。我们是如何处理缓慢变化维度,如何记录变化历史的呢?为什么不使用代理键呢?  

    1.6K31编辑于 2023-09-06
  • 来自专栏全栈程序员必看

    数据数据建模

    今天给大家分享一下 数据开发工作中数据建模的步骤, 第一步:选择模型或者自定义模型 这第一步需要我们基于业务问题 如果没有现成的模型可用,就需要我们自定义模型了,自定义模型不是一件容易的事情,需要非常nb的数学基础和科研精神,当前绝大多数人所谓的建模,都只是选择一个已有的数学模型来工作而已。 这一步,就需要将可用的模型开发出来,并部署在数据分析系统中,然后可以形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。 应用模型,就是将模型应用于真实的业务场景。 构建模型的目的,就是要用于解决工作中的业务问题的,比如预测客户行为,比如划分客户群,等等。 实际上,模型优化不仅仅包含了对模型本身的优化,还包含了对原始数据的处理优化,如果数据能够得到有效的预处理,可以在某种程度上降低对模型的要求。

    1.4K20编辑于 2022-08-18
  • 来自专栏灯塔大数据

    2015年数据行业的9关键词

    而国内,国家也将大数据纳入国策。 我们在年底盘点了2015年数据行业九关键词,管窥这一年行业内的发展。 2 国家政策——战略 今年中国政府对于大数据发展不断发文并推进,这标志着大数据已被国家政府纳入创新战略层面,成为国家战略计划的核心任务之一:2015年9月,国务院发布《促进大数据发展行动纲要》,大力促进中国数据技术的发展 与传统数据库相比,DBaaS能提供低成本、高敏捷性和高可扩展性等云计算特有的优点。 9 数据科学家——性感 ? 数据科学家能够通过统计变成涉及、开发和调用算法而支持业务决策;管理海量数据;可视化数据以辅助理解。 内容来源:36数据

    1.6K60发布于 2018-04-10
  • 来自专栏MIKE笔记 技术教程

    数学建模【三模型+十算法】

    文章目录 前言 一、三模型 1️⃣预测模型 2️⃣优化模型 3️⃣评价模型 二、十算法 1️⃣蒙特卡罗算法 2️⃣数据拟合、参数估计、插值等数据处理算法 3️⃣线性规划、整数规划、多元规划、二次规划等规划类问题 4️⃣图论算法 5️⃣动态规划、回溯搜索、分治算法、分支定界 6️⃣最优化理论的三非经典算法 7️⃣网格算法和穷举法 8️⃣一些连续离散化方法 9️⃣数值分析算法 图象处理算法 ---- 前言 提示 二、十算法 1️⃣蒙特卡罗算法 该算法又称随机性模拟算法,是通过计算 机仿真来解决问题的算法,同时可以通过模拟可以来检验自己 模型的正确性,是比赛时必用的方法 2️⃣数据拟合、参数估计、插值等数据处理算法 比赛中通常 会遇到大量的数据需要处理,而处理数据的关键就在于这些算 法,通常使用 Matlab 作为工具 3️⃣线性规划、整数规划、多元规划、二次规划等规划类问题 建模竞赛大多数问题属于最优化问题 是连续的,而计算机只认的是离散的数据,因此将其离散化后 进行差分代替微分、求和代替积分等思想是非常重要的 9️⃣数值分析算法 那一些数值分析中常用的算法比如方程组求解、矩阵运算、函 数积分等算法就需要额外编写库函数进行调用

    1.1K10编辑于 2023-03-22
  • 来自专栏波波烤鸭

    PowerDesigner数据建模

    PowerDesigner安装 云盘地址:https://pan.baidu.com/s/1MZnQhPZ6ityza9N9nAD3bw 提取码:8qpi 傻瓜式安装 E-R图 E-R图(实体关系图 ) 1.创建模型 ? 生成数据库脚本 ? ? ? ? ?

    82841发布于 2019-04-02
  • 来自专栏全栈程序员必看

    领域建模数据建模

    本文重点主要是比较OO建模数据建模两者特点,这两者我们已经发现属于两个不同方向,也就是说,属于两个完全不同的领域,在J道其他文章里我们 其实已经把这两个领域上升为不同的学科,数据建模属于数学范畴思维 别小看这样一个小小包装,却决定了以后代码的维护性和扩展性, 打个比喻,日常生活中我们经常用各种盒子和袋子包装一些东西,这样做就是为了方便这些东西的携带或储藏,小到生活, 到客观世界每个地方,都是包装分类的影子 因为方法的不同,软件路线也就存在下面几个路线:完全面向对象类建模路线(J道网站和笔者一直致力于这种路线的推介); 一种是对象和关系数据库混合型,还有一种就是过去的完全关系数据库类型软件(如Foxpro/ Evans DDD可以说是近期与SOA相提并论的两重要技术思想,SOA是着重于软件集成方面;而EvansDDD才是着重我们软件开发上, 在大部分情况下,软件开发重要程度不亚于软件集成,但是因为软件开发方面开源力量冲击 领域建模属于与具体.NET或Java技术无关的设计思想,有人总是说:.NET比Java简单,其实这又是一个误区,如果都达到同样设计水准,无论使用.NET或Java,都需要付出同样的努力;那为什么有人觉得

    96230编辑于 2022-07-31
  • 来自专栏paddle深度学习

    paddle深度学习9建模型nn.Layer

    本节将介绍如何使用 Paddle 内置的 Layer 搭建模型。

    29410编辑于 2025-01-15
  • 来自专栏IT大咖说

    咖谈Kubernetes的建模应用

    说起建模,很多小伙伴都不陌生,就是为了理解某一事物而对该事物做出的某一种抽象,是对这个事物没有歧义的一种描述,也叫建立模型。 当然,建模也分系统建模数据建模等好多种类,那么今天,我们就来简单了解一下在Kubernetes环境下建模。 ? 既然谈到Kubernetes的建模,我们就需要简单了解Kubernetes架构,就像大多数小伙伴知道的那样,Kubernetes集群是具有双重角色的:Kubernetes代理和Kubernetes服务。 可是,每当我们操作的时候,可能都会想到一个问题,Kubernetes 能够大规模地为数据中心建模并通过控制器操作数据中心吗?

    63720发布于 2018-10-23
  • 来自专栏全栈程序员必看

    数据建模与数仓建模_数仓建模的几种方式

    数据模型 所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。 在开始介绍数据模型之前,我们先看一个东西,那就是算法与数据结构,我们知道算法是解决特定问题的策略,数据结构处理问题的数学模型,数据结构 有三要素,逻辑结构、存储结构、数据操作、这里的数据操作其实就是算法 ,例如我们定义的图的数据结构,然后在这个基础上对图进行操作形成特定的算法,例如深度遍历和广度遍历;我们的数据结构其实是针对特定的数据问题而抽象和设计的,也就是说一种数据结构针对的是一类特定的问题。 数据模型也一样,只不过数据结构是针对特定问题的,而数据模型是针对特定业务的,然后多业务进行抽象,形成了行业特征,在银行业,IBM 有自己的 BDWM(Banking data warehouse model 数据仓库的设计始于数据模型,企业的数据模型适用于操作型环境,而修改后的模型适用于数仓,其实就是业务模型—> 概念模型—>逻辑模型—>物理模型的这一过程 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人

    81140编辑于 2022-11-15
  • 来自专栏博文视点Broadview

    数据中台建设的9误区,你中了几条?

    目前,行业对数据中台存在诸多误解和理解偏差,因此在建设数据中台的过程中,错误的理解可能导致数据中台建设的失败。 下图为数据中台建设的9误区,下面详细介绍每个误区。 图  数据中台建设的9误区 01. 数据中台等同于数据工具的集合 数据工具的集合能有效地提高数据开发和使用的效率,实现让数据易用的目标。 因此,数据工具是数据中台建设的中间产物,而非终极目标。 02. 数据中台等同于数据平台 数据平台是数据中台的一部分功能,是实现数据好用的核心能力和基础设施。 建设数据中台是一项体系性工程,耗时长,花费,用人多,需要企业自上而下推动,需要企业勠力同心,才能实现数据中台的真正价值。 活动方式:关注下方“博文视点Broadview”公众号,在后台回复“数据中台抽奖”参与活动,届时会在参与的小伙伴中抽取1名幸运鹅! 活动时间:截至9月15日(周三)开奖。

    39210编辑于 2023-05-06
  • 来自专栏PPV课数据科学社区

    【译文】数据科学家必须具备的9能力

    【陆勤看点】如何认识和理解数据科学家?一种很好的方法就是查看数据科学家职位的描述,即数据科学家在公司中负责什么?数据科学家需要什么样职能要求?本文是一个数据科学部门招聘数据科学家的描述,值得一看。 数据科学部门正在寻找有热情应用统计学、机器学习和分析从数据集中获得洞见的数据驱动人。 在数据科学部门中,我们通过把那些最优秀数据工程师和数据科学家召集在一起,并让他们帮助我们的顾客从它们的数据中提取他们所需的相关信息。 6、回复“答案”查看hadoop面试题题目及答案 7、回复“爱情”查看大数据与爱情的故事 8、回复“笑话”查看大数据系列笑话 9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载 专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

    80150发布于 2018-04-20
领券