搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏浪淘沙
SparkCore 编程
1.sparkCore实现wordCount(Idea+scala) import org.apache.spark. that.rate-this.rate } } override def toString: String = { s"user:$num,$name,$age,$rate" } } 3.SparkCore
38310发布于 2018-10-18
来自专栏大数据共享
SparkCore之RDD
https://blog.csdn.net/zym1117/article/details/79532458
89020编辑于 2022-04-26
来自专栏大数据那些年
SparkCore快速入门系列（5）
SparkCore也是Spark中重要的一章，又不懂的可以私信我哦！下一章给大家更新SparkSQL！！！！创作不易，点个赞吧！！！！
60010发布于 2021-04-13
来自专栏最新最全的大数据技术体系
Python大数据之PySpark(七)SparkCore案例
SparkCore案例 PySpark实现SouGou统计分析 jieba分词： pip install jieba 从哪里下载pypi 三种分词模式精确模式，试图将句子最精确地切开 sc.setLogLevel("WARN") # TODO*1 - 读取数据 sougouFileRDD = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore
46250编辑于 2023-10-09
来自专栏浪淘沙
Spark 实现两表查询(SparkCore和SparkSql)
项目需求： ip.txt:包含ip起始地址，ip结束地址，ip所属省份 access.txt:包含ip地址和各种访问数据需求：两表联合查询每个省份的ip数量 SparkCore 使用广播，将小表广播到
1.7K30发布于 2018-10-18
来自专栏Tyrant Lucifer
SparkCore源码分析之RDD默认分区规则
SparkCore源码分析之RDD默认分区规则基础概念 RDD 定义 ❝RDD，全称Resilient Distribute Dataset，学名弹性分布式数据集，是Spark框架中的基本数据抽象 ❞ [Int] = sc.makeRDD(List(1, 2, 3, 4)) 从文本文件创建 val rdd: RDD[String] = sc.textFile("F:\\JavaProjects\\SparkCore
78410编辑于 2022-03-23
来自专栏最新最全的大数据技术体系
Python大数据之PySpark(八)SparkCore加强
SparkCore加强重点：RDD的持久化和Checkpoint 提高拓展知识：Spark内核调度全流程，Spark的Shuffle 练习：热力图统计及电商基础指标统计 combineByKey作为面试部分重点
51330编辑于 2023-10-10
来自专栏SAMshare
【推荐收藏】7个小练习帮你打通SparkCore和SparkSQL编程任督二脉
本文将通过7个简单的小练习，对比示范SparkCore和SparkSQL编程的方法。
1.3K10发布于 2019-07-15
来自专栏大数据开发
大数据入门：Spark RDD基础概念
在Spark框架的核心部分，SparkCore作为平台基础通用执行引擎，重要性自是不必多说。而在SparkCore当中，RDD作为SparkCore的核心抽象，是需要重点搞懂的概念。 Spark框架的核心是SparkCore，而在更深一个层面上，SparkCore的核心就是RDD。 SparkCore建立在统一的抽象RDD之上，这使得Spark的各个组件可以随意集成，可以在同一个应用程序中使用不同的组件以完成复杂的大数据处理任务。
1.2K40发布于 2020-12-09
来自专栏加米谷大数据
0基础学习大数据路线，0基础大数据开发课程大纲
各种语法并灵活运用第十四阶段 kafka分布式总线系统学习内容：kafka分布式总线系统学习目标：kafka原理剖析、kafka编程实践学习效果：深入理解kafka原理并灵活运用及调优第十五阶段 SparkCore 大数据计算基石学习内容：SparkCore大数据计算基石学习目标：SparkCore核心原理、SparkCore实践学习效果：深入理解SparkCore原理并灵活运用及调优第十六阶段 SparkSQL
966100发布于 2018-04-10
来自专栏最新最全的大数据技术体系
Python大数据之PySpark(五)RDD详解
collection_rdd.getNumPartitions())) # 5 # 3 - 使用rdd创建的第二种方法 file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore 读取外部的文件使用sc.textFile和sc.wholeTextFile方式\ file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore _3.1.2/data/ratings100") wholefile_rdd = sc.wholeTextFiles("/export/data/pyspark_workspace/PySpark-SparkCore minPartitions最小的分区个数，最终有多少的分区个数，以实际打印为主 file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore 读取的是文件夹中多个文件，这里的分区个数是以文件个数为主的，自己写的分区不起作用 # file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore
1.2K20编辑于 2023-10-04
来自专栏Lansonli技术博客
大数据Spark（五十六）：Spark生态模块与运行模式
Spark生态模块与运行模式一、Spark生态模块 Spark 生态模块包括：SparkCore、SparkSQL、SparkStreaming、StructuredStreaming、MLlib 和 SparkCore Spark Core 是 Spark 的核心模块，提供了基本的功能和 API，包括任务调度、内存管理、故障恢复等,它实现了弹性分布式数据集（RDD）的概念，支持对分布式数据集的并行操作 SparkSteaming SparkStreaming 是基于 SparkCore 模块实现的，用于实时处理流数据的模块。
61910编辑于 2025-05-24
来自专栏DT乱“码”
2018年Java学习体系
详解 4.storm安装与集群搭建 5.Kafka 6.Flume 7.Redis 八、Spark生态体系 1.Scala编程开发 2.Scala深入解析 3.SparKcore Sparkcore深入编程 5.SparkSQL 6.深入SparkSQL 7.Spark Streaming 8.SparkGraphX 9.Spark源码导读
1.3K50发布于 2018-02-09
来自专栏DevOps
SparkSQL 整体介绍
可以为商业智能工具提供JDBC或ODBC连接 SparkSql 与RDD 的区别 RDD就是SparkCore，对于一般开发人员来说，基于RDD的Spark数据分析并不友好，SparkCore
49410编辑于 2024-03-29
来自专栏java工会
大数据主要学什么，学习大数据你要会什么
kylin、impala、ElasticSearch（ES）大数据实时分析以spark框架为主 Scala：OOP（面向对象程序设计）+FP（函数是程序设计） sparkCore
80900发布于 2018-07-31
来自专栏学习内容
Spark-Core
(Level.ERROR) @Test def test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore (Level.ERROR) @Test def test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore rdd03.toDebugString @Test def test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore @Test def Test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore").setMaster( val conf: SparkConf = new SparkConf().setAppName("SparkCore").setMaster("local[*]") val sc: SparkContext
47120编辑于 2023-10-26
来自专栏Spark学习技巧
Spark2.4.0发布了！
官方发布消息链接如下： http://spark.apache.org/releases/spark-release-2-4-0.html 此版本继续关注可用性，稳定性和优化，浪尖在这里摘要翻译一下，主要的关注点： SparkCore
1K10发布于 2018-12-07
来自专栏最新最全的大数据技术体系
SparkMllib介绍
DataFrame是现在主要用的API Spark ml基于DataFrame的API Spark mllib基于RDD的API(2.0开始处于维护模式,将被淘汰) Spark的各种数据结构: SparkCore
57810编辑于 2021-12-07
来自专栏大数据成长之路
Spark之【SparkSQL编程】系列(No4)——《IDEA创建SparkSQL程序》
---- IDEA中创建SparkSQL程序 IDEA中程序的打包和运行方式都和SparkCore类似。
79640发布于 2021-01-27
来自专栏最新最全的大数据技术体系
【Spark Streaming】Spark Day10：Spark Streaming 学习笔记
SparkCore与SparkSQL，离线分析批处理，分析数据都是静态的，不变的 SparkStreaming和StructuredStreaming，实时流式数据分析，分析数据是源源不断产生，一产生就进行分析在Spark1.x时，主要三个模块，都是自己数据结构进行封装 - SparkCore：RDD - SparkSQL：DataFrame/Dataset - SparkStreaming：DStream Storm框架阿里巴巴双11，前几年使用就是此框架 2）、Samza，领英公司开源严重依赖Kafka，在国内几乎没有公司使用 3）、SparkStreaming 基于SparkCore SparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。在Spark框架中各个模块都有自己数据结构，也有自己的程序入口： - SparkCore RDD SparkContext - SparkSQL DataFrame/Dataset SparkSession
1.5K20编辑于 2021-12-06

第 2 页第 3 页第 4 页

点击加载更多

SparkCore 编程

SparkCore之RDD

SparkCore快速入门系列（5）

Python大数据之PySpark(七)SparkCore案例

Spark 实现两表查询(SparkCore和SparkSql)

SparkCore源码分析之RDD默认分区规则

Python大数据之PySpark(八)SparkCore加强

【推荐收藏】7个小练习帮你打通SparkCore和SparkSQL编程任督二脉

大数据入门：Spark RDD基础概念

0基础学习大数据路线，0基础大数据开发课程大纲

Python大数据之PySpark(五)RDD详解

大数据Spark（五十六）：Spark生态模块与运行模式

2018年Java学习体系

SparkSQL 整体介绍

大数据主要学什么，学习大数据你要会什么

Spark-Core

Spark2.4.0发布了！

SparkMllib介绍

Spark之【SparkSQL编程】系列(No4)——《IDEA创建SparkSQL程序》

【Spark Streaming】Spark Day10：Spark Streaming 学习笔记

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐