首页
学习
活动
专区
圈层
工具
发布
首页标签数据仓库

#数据仓库

数仓入门篇-维度模型与第三范式

用户12062117

第三范式(Third Normal Form, 3NF)源于关系型数据库理论,由 E.F. Codd 提出,也是传统 OLTP(在线事务处理)系统(如 ERP、...

400

快递驿站寻物新革命:亮灯系统让包裹“自报家门”

安灯系统工业液晶看板工厂

在快递业务爆炸式增长的今天,快递驿站早已从简单的包裹中转站,变成了城市物流网络中不可或缺的关键节点。然而,随着日均处理包裹量从几百件飙升至上千件,传统的人工寻物...

1000

四大主流大数据架构详解与实战:MPP、Lambda、Kappa、Lakehouse,附存储选型指南

1024068

在数字经济深度渗透的今天,大数据架构早已告别“单一工具堆砌”的时代,不同业务场景(实时风控、离线分析、海量数据存储)对架构的性能、扩展性、成本要求截然不同。MP...

24810

从零开始学Flink:Flink SQL四大Join解析

代码匠心

在上一篇 《从零开始学Flink:实时数仓与维表时态Join实战》 中,我们通过引入 Hive Catalog,解决了 Flink SQL 元数据管理的痛点。

20210

源代码: 基于扁平化、可标注的编程语言语法解析结果的应用实例(SQL代码结构图/表级血缘分析)

用户12032828

# 将以上解析结果放到excel表格中展示其字段含义(其中红色一列显示了解析配置的标注信息):

11210

什么是数据湖?一文搞懂数据湖、数据仓库、湖仓一体

帆软BI

我们做数据的,最常遇到的痛苦是什么?无非是业务部门天天要报表,技术部门说数据没对齐,分析师抱怨取数慢,开发说需求变太快。这背后,其实都绕不开一个问题,我们的数据...

23010

Spark SQL练习1-电商用户行为分析

用户12062117

在数字化转型的浪潮中,全球领先的电商平台**商城每天承载着数亿级用户的访问与交易。面对海量的用户行为数据,如何从中挖掘商业价值、实现精准营销、提升用户生命周期价...

12110

PySpark入门教程(非常详细)从零基础入门到精通

用户12062117

注:本章节将重点阐述基于3.5.8版本的Spark Core,并采用Python语言进行代码实现。尽管在企业级应用中,Spark SQL得到了更为广泛的应用,老...

16810

源代码:大批量SQL代码语法转换实战:PIVOT函数改写(案例1)

用户12032828

### 背景:在不同数据库迁移的项目中,往往会遇到SQL语法不兼容的情况。比如有的数据库支持PIVOT函数,有的不支持。遇到这种情况,就必须对PIVOT函数进行...

11110

从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践

得物技术

随着企业数字化转型加速推进,大数据业务规模呈现指数级增长,迭代变更越发频繁。此背景下,呈现"高频变更"与"超大规模"并存的特征,这种双重特性给大数据任务的发布变...

23610

【赵渝强老师】基于Hudi的大数据湖仓一体架构

赵渝强老师

Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据...

14710

一文读懂湖仓一体:AI时代的大数据架构革命

LiuDag

为了兼顾数据湖的“海量”和数据仓库的“规范”,存储层会引入“元数据管理”模块——相当于给海量数据贴“标签”,记录数据的来源、格式、权限、关联关系等信息。这样既能...

58310

ETL vs ELT:数据处理的本质博弈与云数仓时代选型指南

用户6320865

进入21世纪,云计算技术的兴起为数据仓库带来了革命性变革。云数据仓库以其弹性扩展、按需付费、高可用性等优势,迅速成为企业的新选择。根据最新行业报告,云数据仓库的...

16710

数据仓库基石:深度解析数据采集的三大核心方式——批量、实时与增量

用户6320865

如果把数据仓库比作一个现代化的智能水库系统,那么数据采集就是连接各个水源的引水渠。这些引水渠负责将分散在各处的数据源——业务数据库、日志文件、传感器数据、第三方...

24910

锚点模型:数据仓库中的高度可扩展建模技术详解

用户6320865

数据仓库的发展历程可以追溯到上世纪90年代,当时企业开始意识到需要专门的系统来支持决策分析。早期的数据仓库主要采用维度建模方法,其中最具代表性的是星型模型和雪花...

13610

数据湖与数据仓库的演进与未来:一场技术辩论

用户11764306

数据湖与仓库、分析与AI/ML、SQL与万物…… 随着数据湖和数据仓库技术能力的趋同,运行AI/ML和分析的独立工具和团队是否也在趋同?

11010

hive往es映射表写数据报错

用户4128047

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。...

8510

Hive常见属性配置

用户4128047

2.查询后信息显示配置 1)在 hive-site.xml 文件中添加如下配置信息,就可以实现显示当前数据库,以及查询 表的头信息配置。

16710

Hive 和数据库区别

用户4128047

3.由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive中不建议对数据的改写,所有的数据都是在加载的时候确定好的。而数据库中的...

14010
领券