搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
最流行的三大数据建模工具
只有数据模型将数据有序的组织和存储起来之后，大数据才能得到高性能、低成本、高效率、高质量的使用。数据建模是通过定义和分析数据需求，以支持信息系统内的业务流程。以上看来，数据建模至关重要。数据建模过程需要专业的建模人员，业务人员以及潜在信息系统的用户紧密工作在一起。数据建模是认识数据的过程，数据模型是数据建模的输出模型有很多种，例如企业数据模型，物理模型，逻辑模型，业务模型，数据使用模型等等。本文列出的工具都是精挑细选的数据建模工具。 PowerDesigner PowerDesigner是目前数据建模业界的领头羊。创始人兼CEO王琤：曾任职erwin全球研发总监，拥有超过十年以上数据建模和数据管理的从业经验。
10.8K21编辑于 2022-09-05
来自专栏别先生
Elasticsearch 6.x版本全文检索学习之数据建模
1、什么是数据建模。　　答：数据建模，英文为Data Modeling，为创建数据模型的过程。数据模型Data Mdel，对现实世界进行抽象描述的一种工具和方法，通过抽象的实体及实体之间联系的形式去描述业务规则，从而实现对现实世界的映射。 2、数据建模的过程。　　 3、Elasticsearch的数据建模，es是基于lucene以倒排索引为基础实现的存储体系，不遵循关系型数据库中的范式约定。 ? 6、Mapping字段属性的设定流程，是何种类型的。　　答：a、字符串类型，需要分词则设定为text类型的，否则设置为keyword类型的。　　　　 10、ES数据建模实例练习。创建博客文档blog_index。 ? 查询博客blog_index_01的索引映射和分片，副本情况。插入数据，然后根据指定字段进行查询。 ?
1.1K20发布于 2019-11-14
来自专栏全栈程序员必看
数仓建模与分析建模_数据仓库建模与数据挖掘建模
；设计一个时间非常大的分区，如 9999-12-31，存放截至当前未结束的数据已结束的数据存放到相应的分区，存放未结束数据分区，数据量不会太大，ETL 性能好无存储浪费，数据全局唯一业务系统可能无法标识业务实体的结束时间 [外链图片转存中…(img-uQis5F2c-1645262440294)] 范式第一范式：属性不可分割第二范式：消除不分函数依赖第三范式：消除传递依赖关系建模与维度建模关系建模：将复杂的数据抽象为两个概念维度建模：模型相对清晰、简洁。维度模型以数据分析作为出发点，不遵循三范式，故数据存在一定的冗余。维度模型面向业务，将业务用事实表和维度表呈现出来。 4. 数仓建模方法 ODS：数据类型：用户行为数据、业务数据规划处理保持数据源不做修改，起到备份数据的作用数据采用压缩，减少磁盘存储空间创建分区表，防止后续的全表扫描 DWD： DWD层需构建维度模型维度建模一般按照以下四个步骤：选择业务过程→声明粒度→确认维度→确认事实。
1.9K20编辑于 2022-11-09
来自专栏程序你好
数据科学的前6大语言
2012年的《哈佛商业评论》(Harvard business review)正确地将数据科学列为“21世纪最性感的工作”。即使在这份报告发表6年后的今天，《商业评论》仍被证明是正确的。随着人工智能和机器学习的出现，“数据科学”一词在精通技术的人中间流行起来。用最简单的话说，数据科学是一种利用科学技术和算法从数据中挖掘知识的方法，无论是结构化的还是非结构化的。无论您是数据科学领域的新手还是专业人士，您需要记住的一些基本内容包括分析数据、应用编程工具(如对数据进行序列和选择)以及执行简单的数据可视化。 R R编程语言被数据挖掘人员和数据科学家广泛用于分析数据。简化工作在统计学家中也很流行。R提供了强大的面向对象编程工具，使其在其他计算语言中处于优势地位。静态图形使图形和其他数学符号的生成更加容易。 SQL 结构化查询语言(SQL)用于处理大型数据库。特别是，它有助于管理结构化数据。学习SQL可以很好地提高数据科学家的语言技能。这种语言的缺点是缺乏可移植性。
1.2K30发布于 2018-09-29
来自专栏大数据学习与分享
数据建模-维度建模-维度设计
作为维度建模的核心，我们在企业级的数据仓库中必须保证维度的唯一性。以淘宝商品维度为例，我们有且只允许有一个维度定义。第二步：确定主维度表。（3）同一类数据基于范式建模，拆分成同一类型数据库中多张的物理表，比如商品，有商品主表和商品扩展表，商品主表存商品基本信息；商品扩展表存储商品特殊信息，如不同产品线定制化的信息等；比如会员，有会员主表和会员扩展表源系统影响差异小的进行整合；业务关系小、源系统影响差异大的进行分而置之。但在阿里巴巴数据仓库建设的实践过程中，虽然我们使用的是Kimball的维度建模的理论，但实际并未使用代理键。我们是如何处理缓慢变化维度，如何记录变化历史的呢？为什么不使用代理键呢？其中VIP等级共有8个值，-1~6；用户信用评价等级共有18个值。假设基于VIP等级和用户信用评价等级构建微型维度，则在此微型维度中共有8*18个组合，即144条记录，代理键可能是1~144。
1.6K31编辑于 2023-09-06
来自专栏全栈程序员必看
大数据数据建模
今天给大家分享一下数据开发工作中数据建模的步骤，第一步：选择模型或者自定义模型这第一步需要我们基于业务问题如果没有现成的模型可用，就需要我们自定义模型了，自定义模型不是一件容易的事情，需要非常nb的数学基础和科研精神，当前绝大多数人所谓的建模，都只是选择一个已有的数学模型来工作而已。这一步，就需要将可用的模型开发出来，并部署在数据分析系统中，然后可以形成数据分析的模板和可视化的分析结果，以便实现自动化的数据分析报告。应用模型，就是将模型应用于真实的业务场景。构建模型的目的，就是要用于解决工作中的业务问题的，比如预测客户行为，比如划分客户群，等等。实际上，模型优化不仅仅包含了对模型本身的优化，还包含了对原始数据的处理优化，如果数据能够得到有效的预处理，可以在某种程度上降低对模型的要求。
1.4K20编辑于 2022-08-18
来自专栏MIKE笔记技术教程
数学建模【三大模型+十大算法】
文章目录前言一、三大模型 1️⃣预测模型 2️⃣优化模型 3️⃣评价模型二、十大算法 1️⃣蒙特卡罗算法 2️⃣数据拟合、参数估计、插值等数据处理算法 3️⃣线性规划、整数规划、多元规划、二次规划等规划类问题 4️⃣图论算法 5️⃣动态规划、回溯搜索、分治算法、分支定界 6️⃣最优化理论的三大非经典算法 7️⃣网格算法和穷举法 8️⃣一些连续离散化方法 9️⃣数值分析算法图象处理算法 ---- 前言提示二、十大算法 1️⃣蒙特卡罗算法该算法又称随机性模拟算法，是通过计算机仿真来解决问题的算法，同时可以通过模拟可以来检验自己模型的正确性，是比赛时必用的方法 2️⃣数据拟合、参数估计、插值等数据处理算法比赛中通常会遇到大量的数据需要处理，而处理数据的关键就在于这些算法，通常使用 Matlab 作为工具 3️⃣线性规划、整数规划、多元规划、二次规划等规划类问题建模竞赛大多数问题属于最优化问题网络流、二分图等算法，涉及到图论的问题可以用这些方法解决，需要认真准备 5️⃣动态规划、回溯搜索、分治算法、分支定界这些算法是算法设计中比较常用的方法，很多场合可以用到竞赛中 6️⃣
1.1K10编辑于 2023-03-22
来自专栏波波烤鸭
PowerDesigner数据建模
PowerDesigner安装云盘地址:https://pan.baidu.com/s/1MZnQhPZ6ityza9N9nAD3bw 提取码：8qpi 傻瓜式安装 E-R图 E-R图(实体关系图 ) 1.创建模型 ? 生成数据库脚本 ? ? ? ? ?
82841发布于 2019-04-02
来自专栏CDA数据分析师
数据挖掘与数据建模的9大定律（深度长文收藏细读！）
以及它们是如何相关的；数据预处理就是利用业务知识来塑造数据，使得业务问题可以被提出和解答（更详尽的第三条—准备律）；建模是使用数据挖掘算法创建预测模型，同时解释模型和业务目标的特点，也就是说理解它们之间的业务相关性最简单的解释可以概括为“数据是困难的”，经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。这是数据预处理重要的原因，并且在数据挖掘过程中占有如此大的工作量，这样数据挖掘者可以从容地操纵问题空间，使得容易找到适合分析他们的方法。有两种方法“塑造”这个问题空间。 6 洞察律：数据挖掘增大对业务的认知。数据挖掘是如何产生洞察力的？这个定律接近了数据挖掘的核心：为什么数据挖掘必须是一个业务过程而不是一个技术过程。业务问题是由人而非算法解决的。准确性是指正确的预测结果所占的比例；稳定性是指当创建模型的数据改变时，用于同一口径的预测数据，其预测结果变化有多大（或多小）。
1.8K50发布于 2018-02-11
来自专栏全栈程序员必看
领域建模与数据库建模
本文重点主要是比较OO建模和数据表建模两者特点，这两者我们已经发现属于两个不同方向，也就是说，属于两个完全不同的领域，在J道其他文章里我们其实已经把这两个领域上升为不同的学科，数据表建模属于数学范畴思维别小看这样一个小小包装，却决定了以后代码的维护性和扩展性，打个比喻，日常生活中我们经常用各种盒子和袋子包装一些东西，这样做就是为了方便这些东西的携带或储藏，小到生活，大到客观世界每个地方，都是包装分类的影子因为方法的不同，软件路线也就存在下面几个路线：完全面向对象类建模路线(J道网站和笔者一直致力于这种路线的推介)；一种是对象和关系数据库混合型，还有一种就是过去的完全关系数据库类型软件（如Foxpro/ Evans DDD可以说是近期与SOA相提并论的两大重要技术思想，SOA是着重于软件集成方面；而EvansDDD才是着重我们软件开发上，在大部分情况下，软件开发重要程度不亚于软件集成，但是因为软件开发方面开源力量冲击领域建模属于与具体.NET或Java技术无关的设计思想，有人总是说：.NET比Java简单，其实这又是一个大误区，如果都达到同样设计水准，无论使用.NET或Java，都需要付出同样的努力；那为什么有人觉得
96230编辑于 2022-07-31
来自专栏IT大咖说
大咖谈Kubernetes的建模应用
说起建模，很多小伙伴都不陌生，就是为了理解某一事物而对该事物做出的某一种抽象，是对这个事物没有歧义的一种描述，也叫建立模型。当然，建模也分系统建模，数据建模等好多种类，那么今天，我们就来简单了解一下在Kubernetes环境下建模。 ? 既然谈到Kubernetes的建模，我们就需要简单了解Kubernetes架构，就像大多数小伙伴知道的那样，Kubernetes集群是具有双重角色的：Kubernetes代理和Kubernetes服务。可是，每当我们操作的时候，可能都会想到一个问题，Kubernetes 能够大规模地为数据中心建模并通过控制器操作数据中心吗？
63720发布于 2018-10-23
来自专栏CDA数据分析师
数据分析不能碰的6大禁区!
1 没有明确分析数据的要分析一个数据，首先要明确自己的目的，为什么要收集和分析这样一份数据。只有明确了目的之后，才能够把握好接下来应该收集哪些数据，应该怎么收集数据，应该分析哪些数据等。 2 没有合理安排时间数据分析也要合理安排时间，一般有几个步骤，收集数据、整理数据、分析数据、美化表格。在做这些之前，要预估每一个步骤需要花多少时间，哪一步比较重要，需要花更多的时间等。数据分析重点应该在于分析，应该以最快的速度收集完数据，才有更多的时间整理和分析，最后经过分析的数据才是最有价值的。 5 不懂得分析哪些数据这是比较普遍的问题，收集了数据后不知道要分析哪些项目，哪些数据点才能体现出分析的目的。 6 表格不美观，不清晰做数据分析一般使用的是excel表格记录，一份美观清晰的表格不仅使我们可以清楚的看到这份数据的重点，方便查到所想要的数据。在收集数据的过程中，也可以提高收集和分析数据的效率。
71160发布于 2018-02-11
来自专栏机器学习/数据可视化
Python入门-6大数据类型操作
Python的6种数据类型操作总结本文对Python中常见6种数据类型的操作进行了汇总： Numbers（数字） String（字符串） List（列表） Tuple（元组） Dictionary（字典 = 1.3常用函数取绝对值：abs 四舍五入：round 取整：int 转浮点数：float 二、字符串String 字符串是Python中常见的数据类型之一，能够使用str函数将其他类型的数据强制转成字符类型 2.1键盘输入终端中通过input函数输入的任何内容都是字符串数据 2.2三种方法生成通过3种方法生成字符串数据：单引号：`python` 双引号：“python” 三引号：一般字符串内容较长时使用列表元素重复：* 返回列表中的最值（比较ASCII码）：max、min 3.3常见操作索引和切片操作（类比字符串） append：将整体追加到列表的末尾 extend：列表中的每个元素进行合并，组成一个大的列表，字典是无序的数据类型，主要是用来存放具有一定映射关系的数据。
71220编辑于 2023-08-23
来自专栏全栈程序员必看
数据建模与数仓建模_数仓建模的几种方式
数据模型所谓水无定势，兵无常法。不同的行业，有不同行业的特点，因此，从业务角度看，其相应的数据模型是千差万别的。在开始介绍数据模型之前，我们先看一个东西，那就是算法与数据结构，我们知道算法是解决特定问题的策略，数据结构处理问题的数学模型，数据结构有三大要素，逻辑结构、存储结构、数据操作、这里的数据操作其实就是算法，例如我们定义的图的数据结构，然后在这个基础上对图进行操作形成特定的算法，例如深度遍历和广度遍历；我们的数据结构其实是针对特定的数据问题而抽象和设计的，也就是说一种数据结构针对的是一类特定的问题。数据模型也一样，只不过数据结构是针对特定问题的，而数据模型是针对特定业务的，然后多业务进行抽象，形成了行业特征，在银行业，IBM 有自己的 BDWM(Banking data warehouse model 数据仓库的设计始于数据模型，企业的数据模型适用于操作型环境，而修改后的模型适用于数仓，其实就是业务模型—> 概念模型—>逻辑模型—>物理模型的这一过程版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人
81140编辑于 2022-11-15
来自专栏华章科技
数据分析不能碰的6大禁区
没有明确分析数据的目的要分析一个数据，首先要明确自己的目的，为什么要收集和分析这样一份数据。只有明确了目的之后，才能够把握好接下来应该收集哪些数据，应该怎么收集数据，应该分析哪些数据等。没有合理安排时间数据分析也要合理安排时间，一般有几个步骤，收集数据、整理数据、分析数据、美化表格。在做这些之前，要预估每一个步骤需要花多少时间，哪一步比较重要，需要花更多的时间等。数据分析重点应该在于分析，应该以最快的速度收集完数据，才有更多的时间整理和分析，最后经过分析的数据才是最有价值的。不懂得分析哪些数据这是比较普遍的问题，收集了数据后不知道要分析哪些项目，哪些数据点才能体现出分析的目的。表格不美观，不清晰做数据分析一般使用的是excel表格记录，一份美观清晰的表格不仅使我们可以清楚的看到这份数据的重点，方便查到所想要的数据。在收集数据的过程中，也可以提高收集和分析数据的效率。
36430发布于 2018-08-13
来自专栏往期博文
数学建模暑期集训6：用SPSS对数据进行多元线性回归分析
在本专栏的第六篇数学建模学习笔记（六）多元回归分析算法（matlab）博文中，记录了如何用matlab进行多元回归分析。本篇则将使用spss软件达到同样的效果，且使用起来比matlab更为方便。 1.数据源为了简化分析，这里采用了三个变量：树干直径、树干高度、树干体积，树干体积和树干直径、高度有关。 2.散点图大致判断在多元线性回归分析之前，有必要先对数据是否具有线性做个直观判断。
3.4K20编辑于 2022-06-14
来自专栏大数据与微服务架构
数据挖掘与建模
数据挖掘是基于统计学原理，利用机器学习中的算法工具实现价值信息的发现。机器学习是一种实现人工智能的方法，深度学习是实现机器学习的一种技术。 ? 四大经典算法：分类、关联、聚类、回归一、监督学习（通俗来说就是已知样本类别，即知道当前的样本是哪一类的样本。）非线性分类经典算法包括K近邻（KNN）、支持向量机（SVM）、决策树（D Tree）、朴素贝叶斯（NB） 2、回归分析：反映事务数据属性在时间上的特征，预测数据间的相关关系，与分类区别在于，分类是预测目标的离散变量二、无监督学习（事先没有任何训练数据样本，需要直接对数据进行建模，即不提供经验和训练样本，完全靠自己摸索） 1、关联分析：描述数据库中数据之间存在关系的规则。模型发现：20世纪90年代的美国沃尔玛超市中，管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。
1K30发布于 2020-04-11
来自专栏全栈程序员必看
数据库建模
1）定义：在设计数据库时，对现实世界进行分析、抽象、并从中找出内在联系，进而确定数据库的结构，这一过程就称为数据库建模。 2）作用： 1. 模型能准确表达设计意图，更易于进行技术交流。 2. 3）数据库建模步骤： 1.需求分析阶段 2.概念结构设计阶段：CMD 概念结构设计是整个数据库设计的关键。 3.逻辑数据模型：LDM 需要考虑数据的存储结构，是关系的还是面向对象的。对数据进行符合数据库设计范式的规范，但不关心物理数据库。概念模型是把现实世界中实体和关系抽象到计算机世界，逻辑模型就是一种跟具体数据库无关的数据库模型，而物理模型是对某一款确定的数据库进行设计的数据库模型。所以在数据库开发当中，先进行概念建模，然后进行逻辑建模，再而才进行物理模型的建模。
86210编辑于 2022-07-23
来自专栏斑斓
MongoDB的数据建模
MongoDB是一种面向Document的NoSQL数据库，如果我们还是按照RDB的方式来思考MongoDB的数据建模，则不能有效地利用MongoDB的优势；然而，我们也不能因为Document的灵活性适度的建模是非常有必要的，尤其对于相对复杂的关联关系。因为在MongoDB中，处理这种关联关系既可以使用Link，也可以使用Embedded。如果采用Embedded方式，则会导致Task数据的冗余。在文章 6 Rules of Thumb for MongoDB Schema Design中，作者将这种1对N关联实现的判断依据划分为三种形式： one-to-few one-to-many one-to-squillions 文章 6 Rules of Thumb for MongoDB Schema Design的说法就是： Will the entities on the “N” side of the One-to-N
1.2K60发布于 2018-03-07
来自专栏大数据解决方案
ETL和数据建模
一、什么是ETL ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中二、数据仓库的架构数据仓库（Data Warehouse \ DW）是基于OLTP系统的数据源，为了便于多维分析和多角度展现将其数据按特定的模式进行存储而建立的关系型数据库，它不同于多维数据库，数据仓库中的数据是细节的我们的做法是将原始表与维度表进行关联，生成事实表（图六：pic6.jpg）。常用的ETL工具：主要有三大主流工具，分别是Ascential公司的Datastage、Informatica公司的Powercenter、NCR Teradata公司的ETL Automation.还有其他开源工具 ETL标准算法可划分为：历史拉链算法、追加算法(事件表)、Upsert算法(主表)及全删全加算法(参数表); 6.
1.7K20发布于 2021-11-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

最流行的三大数据建模工具

Elasticsearch 6.x版本全文检索学习之数据建模

数仓建模与分析建模_数据仓库建模与数据挖掘建模

数据科学的前6大语言

数据建模-维度建模-维度设计

大数据数据建模

数学建模【三大模型+十大算法】

PowerDesigner数据建模

数据挖掘与数据建模的9大定律（深度长文收藏细读！）

领域建模与数据库建模

大咖谈Kubernetes的建模应用

数据分析不能碰的6大禁区!

Python入门-6大数据类型操作

数据建模与数仓建模_数仓建模的几种方式

数据分析不能碰的6大禁区

数学建模暑期集训6：用SPSS对数据进行多元线性回归分析

数据挖掘与建模

数据库建模

MongoDB的数据建模

ETL和数据建模

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

最流行的三大数据建模工具

Elasticsearch 6.x版本全文检索学习之数据建模

数仓建模与分析建模_数据仓库建模与数据挖掘建模

数据科学的前6大语言

数据建模-维度建模-维度设计

大数据数据建模

数学建模【三大模型+十大算法】

PowerDesigner数据建模

数据挖掘与数据建模的9大定律（深度长文 收藏细读！）

领域建模与数据库建模

大咖谈Kubernetes的建模应用

数据分析不能碰的6大禁区!

Python入门-6大数据类型操作

数据建模与数仓建模_数仓建模的几种方式

数据分析不能碰的6大禁区

数学建模暑期集训6：用SPSS对数据进行多元线性回归分析

数据挖掘与建模

数据库建模

MongoDB的数据建模

ETL和数据建模

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

数据挖掘与数据建模的9大定律（深度长文收藏细读！）