首页
学习
活动
专区
圈层
工具
发布

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

数仓入门篇-维度模型与第三范式

用户12062117

第三范式(Third Normal Form, 3NF)源于关系型数据库理论,由 E.F. Codd 提出,也是传统 OLTP(在线事务处理)系统(如 ERP、...

400

【赵渝强老师】使用TiSpark在Spark中访问TiDB

赵渝强老师

TiSpark是TiDB为解决用户复杂OLAP需求而推出的产品。它借助Spark平台,同时融合TiKV分布式集群的优势,和TiDB一起为用户一站式解决HTAP的...

4910

DGX Spark 实测评测:官方基准与实际应用的差距解析

GPUS Lady

近期后台收到很多开发者咨询 DGX Spark 的实际性能与开发体验。为了更真实、客观地回答大家,我们专门整理了一线开发者的实测笔记,从性能表现、上手难度、实际...

39710

NVIDIA DGX Spark 多节点集群搭建,这些坑千万别踩!

GPUS Lady

外网一位技术博主曾录制过一期趣味十足的技术视频,视频中他详细分享了自己从4台NVIDIA DGX Spark硬件入手,逐步扩展至8台、搭建大模型训练与推理集群的...

49210

NVIDIA DGX Spark全维度问答:性能优化/教育应用/双集群支持,你想问的都在这

GPUS Lady

A: NVIDIA 最近在 GitHub 上发布了详细的性能指南,可以在 build.nvidia.com/spark 页面找到链接。该指南提供了如何使用不同框...

21510

NVIDIA 发布 DGX Spark 性能基准测试指南,赋能多节点 AI 高效部署

GPUS Lady

英伟达(NVIDIA)今日正式发布 DGX Spark 性能基准测试指南(),该指南不仅适用于 NVIDIA 原生 DGX Spark 设备,更全面适配所有搭载...

23710

玩转 PySpark 自定义函数:UDF、UDAF、UDTF 全解析与实战

ETL 小当家

UDF 的核心逻辑是一行进、一个值出,本质上是对表中每一行的某个字段做一次独立的转换或计算,结果作为新的一列返回。你可以把它理解为对每一行数据套用同一个"加工模...

13810

Spark SQL练习1-电商用户行为分析

用户12062117

在数字化转型的浪潮中,全球领先的电商平台**商城每天承载着数亿级用户的访问与交易。面对海量的用户行为数据,如何从中挖掘商业价值、实现精准营销、提升用户生命周期价...

12110

PySpark入门教程(非常详细)从零基础入门到精通

用户12062117

注:本章节将重点阐述基于3.5.8版本的Spark Core,并采用Python语言进行代码实现。尽管在企业级应用中,Spark SQL得到了更为广泛的应用,老...

16810

Spark SQL Catalyst 优化器详解

ETL 小当家

宏观来看:Spark SQL 语句,经过一个优化器(Catalyst),转化为 RDD,交给集群执行。

12110

Spark SQL(七):AQE自适应查询执行(下)

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

Spark Exchange算子有两类实现:ShuffleExchangeExec 大规模数据shuffle重分区分发,doExecute 生成Shuffled...

22110

告别 UNION ALL!GROUPING SETS 让你的 SQL 只扫描一次表

ETL 小当家

GROUPING SETS 是 SQL 中 GROUP BY 子句的扩展功能,它的核心作用是:在一次查询中同时执行多个不同维度的分组统计,最后将所有分组的结果合...

16710

一文搞懂物化视图:从原理到实战,查询性能提升 10 倍的秘密

ETL 小当家

物化视图是数据库中的一种特殊对象,它存储了查询结果的物理副本,与普通视图(只保存查询定义)不同。

11810

SQL视图实战指南:高效维护逻辑,告别重复代码

ETL 小当家

视图是从一个或多个表(或其他视图)导出的虚拟表。它本身不包含实际的数据,而是根据定义它的查询语句从相关的表中动态检索数据。可以将视图理解为一个存储起来的查询,查...

9410

谁在摧毁中国的企业软件产业?白嫖,开源,外包,招标,数科,AI...

肥仔鱼

中国的企业软件产业正处在一个“多重压力交汇”的关键十字路口。表面上看,是“白嫖文化”、开源冲击、外包盛行、招标机制扭曲、数科公司挤压、AI颠覆等外部力量在“摧毁...

16410

【赵渝强老师】基于Hudi的大数据湖仓一体架构

赵渝强老师

Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据...

14710

Spark Mlib ALS 交替最小二乘算法(学习笔记)

用户10150864

ALS是交替最小二乘的简称(alternating least squares)的简称。在机器学习的上下文中,ALS特指使用交替最小二乘求解的一个协同推荐算法。...

11510

大数据处理:Pandas+Spark 高效分析海量数据

1xsss

在数字化时代,海量数据已成为企业和组织的核心资产——从用户行为分析到业务决策优化,从金融风控到智能制造,大数据分析的能力直接决定了数据价值的挖掘深度。然而,面对...

15410
领券