用户12062117
PySpark入门教程(非常详细)从零基础入门到精通
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
用户12062117
社区首页
>
专栏
>
PySpark入门教程(非常详细)从零基础入门到精通
PySpark入门教程(非常详细)从零基础入门到精通
用户12062117
关注
发布于 2026-02-19 00:41:35
发布于 2026-02-19 00:41:35
168
0
举报
概述
注:本章节将重点阐述基于3.5.8版本的Spark Core,并采用Python语言进行代码实现。尽管在企业级应用中,Spark SQL得到了更为广泛的应用,老言在后续章节将深入探讨Spark SQL的相关内容,但鉴于Spark Core作为Apache Spark的基础组件,掌握其核心概念和技术细节对于全面理解整个生态系统至关重要。因此,我们有必要对Spark Core有一个深刻的认识。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
spark
python
大数据
数据仓库
sql
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
spark
python
大数据
数据仓库
sql
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
目录
Spark简介
Apache Spark的演进与核心价值
RDD的五大特性
RDD的五大特点
RDD 和DataFrame/Dataset、SQL的关系
PySpark编程指南
概述
准备执行环境
通过UV创建python3.11环境
WordCount
将函数传递给Spark
闭包
闭包的工作机制
RDD算子
Shuffle 操作
RDD依赖关系
DAG 的生成和划分 Stage
为什么要划分Stage
Stage 划分
执行流程
RDD 持久化
RDD的容错机制
核心原理
容错策略
Checkpoint 机制
优势与局限
共享变量
默认机制的局限
广播变量
累加器
总结
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐