首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >PySpark入门教程(非常详细)从零基础入门到精通

PySpark入门教程(非常详细)从零基础入门到精通

作者头像
用户12062117
发布2026-02-19 00:41:35
发布2026-02-19 00:41:35
1680
举报
概述
注:本章节将重点阐述基于3.5.8版本的Spark Core,并采用Python语言进行代码实现。尽管在企业级应用中,Spark SQL得到了更为广泛的应用,老言在后续章节将深入探讨Spark SQL的相关内容,但鉴于Spark Core作为Apache Spark的基础组件,掌握其核心概念和技术细节对于全面理解整个生态系统至关重要。因此,我们有必要对Spark Core有一个深刻的认识。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Spark简介
    • Apache Spark的演进与核心价值
    • RDD的五大特性
    • RDD的五大特点
    • RDD 和DataFrame/Dataset、SQL的关系
  • PySpark编程指南
    • 概述
    • 准备执行环境
      • 通过UV创建python3.11环境
    • WordCount
    • 将函数传递给Spark
    • 闭包
      • 闭包的工作机制
    • RDD算子
    • Shuffle 操作
    • RDD依赖关系
    • DAG 的生成和划分 Stage
      • 为什么要划分Stage
      • Stage 划分
      • 执行流程
    • RDD 持久化
    • RDD的容错机制
      • 核心原理
      • 容错策略
      • Checkpoint 机制
      • 优势与局限
    • 共享变量
      • 默认机制的局限
      • 广播变量
      • 累加器
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档