首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏浪淘沙

    SparkCore 编程

    1.sparkCore实现wordCount(Idea+scala) import org.apache.spark. that.rate-this.rate } } override def toString: String = { s"user:$num,$name,$age,$rate" } } 3.SparkCore

    37110发布于 2018-10-18
  • 来自专栏大数据共享

    SparkCore之RDD

    https://blog.csdn.net/zym1117/article/details/79532458

    86220编辑于 2022-04-26
  • 来自专栏大数据那些年

    SparkCore快速入门系列(5)

    SparkCore也是Spark中重要的一章,又不懂的可以私信我哦! 下一章给大家更新SparkSQL!!!! 创作不易,点个赞吧!!!!

    57710发布于 2021-04-13
  • 来自专栏最新最全的大数据技术体系

    Python大数据之PySpark(七)SparkCore案例

    SparkCore案例 PySpark实现SouGou统计分析 jieba分词: pip install jieba 从哪里下载pypi 三种分词模式 精确模式,试图将句子最精确地切开 sc.setLogLevel("WARN") # TODO*1 - 读取数据 sougouFileRDD = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore

    44550编辑于 2023-10-09
  • 来自专栏浪淘沙

    Spark 实现两表查询(SparkCore和SparkSql)

    项目需求: ip.txt:包含ip起始地址,ip结束地址,ip所属省份 access.txt:包含ip地址和各种访问数据 需求:两表联合查询每个省份的ip数量 SparkCore 使用广播,将小表广播到

    1.6K30发布于 2018-10-18
  • 来自专栏最新最全的大数据技术体系

    Python大数据之PySpark(八)SparkCore加强

    SparkCore加强 重点:RDD的持久化和Checkpoint 提高拓展知识:Spark内核调度全流程,Spark的Shuffle 练习:热力图统计及电商基础指标统计 combineByKey作为面试部分重点

    46330编辑于 2023-10-10
  • 来自专栏Tyrant Lucifer

    SparkCore源码分析之RDD默认分区规则

    SparkCore源码分析之RDD默认分区规则 基础概念 RDD 定义 ❝RDD,全称Resilient Distribute Dataset,学名弹性分布式数据集,是Spark框架中的基本数据抽象 ❞ [Int] = sc.makeRDD(List(1, 2, 3, 4)) 从文本文件创建 val rdd: RDD[String] = sc.textFile("F:\\JavaProjects\\SparkCore

    76810编辑于 2022-03-23
  • 来自专栏SAMshare

    【推荐收藏】7个小练习帮你打通SparkCore和SparkSQL编程任督二脉

    本文将通过7个简单的小练习,对比示范SparkCore和SparkSQL编程的方法。

    1.3K10发布于 2019-07-15
  • 来自专栏大数据开发

    大数据入门:Spark RDD基础概念

    在Spark框架的核心部分,SparkCore作为平台基础通用执行引擎,重要性自是不必多说。而在SparkCore当中,RDD作为SparkCore的核心抽象,是需要重点搞懂的概念。 Spark框架的核心是SparkCore,而在更深一个层面上,SparkCore的核心就是RDD。 SparkCore建立在统一的抽象RDD之上,这使得Spark的各个组件可以随意集成,可以在同一个应用程序中使用不同的组件以完成复杂的大数据处理任务。

    1.1K40发布于 2020-12-09
  • 来自专栏加米谷大数据

    0基础学习大数据路线,0基础大数据开发课程大纲

    各种语法并灵活运用 第十四阶段 kafka分布式总线系统 学习内容:kafka分布式总线系统 学习目标:kafka原理剖析、kafka编程实践 学习效果:深入理解kafka原理并灵活运用及调优 第十五阶段 SparkCore 大数据计算基石 学习内容:SparkCore大数据计算基石 学习目标:SparkCore核心原理、SparkCore实践 学习效果:深入理解SparkCore原理并灵活运用及调优 第十六阶段 SparkSQL

    950100发布于 2018-04-10
  • 来自专栏最新最全的大数据技术体系

    Python大数据之PySpark(五)RDD详解

    collection_rdd.getNumPartitions())) # 5 # 3 - 使用rdd创建的第二种方法 file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore 读取外部的文件使用sc.textFile和sc.wholeTextFile方式\ file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore _3.1.2/data/ratings100") wholefile_rdd = sc.wholeTextFiles("/export/data/pyspark_workspace/PySpark-SparkCore minPartitions最小的分区个数,最终有多少的分区个数,以实际打印为主 file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore 读取的是文件夹中多个文件,这里的分区个数是以文件个数为主的,自己写的分区不起作用 # file_rdd = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore

    1.2K20编辑于 2023-10-04
  • 来自专栏Lansonli技术博客

    大数据Spark(五十六):Spark生态模块与运行模式

    Spark生态模块与运行模式 一、Spark生态模块 Spark 生态模块包括:SparkCore、SparkSQL、SparkStreaming、StructuredStreaming、MLlib 和 SparkCore Spark Core 是 Spark 的核心模块,提供了基本的功能和 API,包括任务调度、内存管理、故障恢复等,它实现了弹性分布式数据集(RDD)的概念,支持对分布式数据集的并行操作 SparkSteaming SparkStreaming 是基于 SparkCore 模块实现的,用于实时处理流数据的模块。

    54110编辑于 2025-05-24
  • 来自专栏DT乱“码”

    2018年Java学习体系

    详解 4.storm安装与集群搭建 5.Kafka 6.Flume 7.Redis 八、Spark生态体系 1.Scala编程开发 2.Scala深入解析 3.SparKcore Sparkcore深入编程 5.SparkSQL 6.深入SparkSQL 7.Spark Streaming 8.SparkGraphX 9.Spark源码导读

    1.3K50发布于 2018-02-09
  • 来自专栏DevOps

    SparkSQL 整体介绍

    可以为商业智能工具提供JDBC或ODBC连接 SparkSql 与RDD 的区别     RDD就是SparkCore,对于一般开发人员来说,基于RDD的Spark数据分析 并不友好,SparkCore

    47110编辑于 2024-03-29
  • 来自专栏java工会

    大数据主要学什么,学习大数据你要会什么

    kylin、impala、ElasticSearch(ES) 大数据实时分析 以spark框架为主 Scala:OOP(面向对象程序设计)+FP(函数是程序设计) sparkCore

    79400发布于 2018-07-31
  • 来自专栏学习内容

    Spark-Core

    (Level.ERROR) @Test def test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore (Level.ERROR) @Test def test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore rdd03.toDebugString @Test def test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore @Test def Test(): Unit = { val conf: SparkConf = new SparkConf().setAppName("SparkCore").setMaster( val conf: SparkConf = new SparkConf().setAppName("SparkCore").setMaster("local[*]") val sc: SparkContext

    43520编辑于 2023-10-26
  • 来自专栏Spark学习技巧

    Spark2.4.0发布了!

    官方发布消息链接如下: http://spark.apache.org/releases/spark-release-2-4-0.html 此版本继续关注可用性,稳定性和优化,浪尖在这里摘要翻译一下,主要的关注点: SparkCore

    1K10发布于 2018-12-07
  • 来自专栏最新最全的大数据技术体系

    SparkMllib介绍

    DataFrame是现在主要用的API Spark ml基于DataFrame的API Spark mllib基于RDD的API(2.0开始处于维护模式,将被淘汰) Spark的各种数据结构: SparkCore

    55710编辑于 2021-12-07
  • 来自专栏大数据成长之路

    Spark之【SparkSQL编程】系列(No4)——《IDEA创建SparkSQL程序》

    ---- IDEA中创建SparkSQL程序 IDEA中程序的打包和运行方式都和SparkCore类似。

    77640发布于 2021-01-27
  • 来自专栏最新最全的大数据技术体系

    【Spark Streaming】Spark Day10:Spark Streaming 学习笔记

    SparkCore与SparkSQL,离线分析批处理,分析数据都是静态的,不变的 SparkStreaming和StructuredStreaming,实时流式数据分析,分析数据是源源不断产生,一产生就进行分析 在Spark1.x时,主要三个模块,都是自己数据结构进行封装 - SparkCore:RDD - SparkSQL:DataFrame/Dataset - SparkStreaming:DStream Storm框架 阿里巴巴双11,前几年使用就是此框架 2)、Samza,领英公司开源 严重依赖Kafka,在国内几乎没有公司使用 3)、SparkStreaming 基于SparkCore SparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点。 在Spark框架中各个模块都有自己数据结构,也有自己的程序入口: - SparkCore RDD SparkContext - SparkSQL DataFrame/Dataset SparkSession

    1.5K20编辑于 2021-12-06
领券