首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏软件开发-青出于蓝

    Spark集群安装方式2

    /opt下     修改spark的conf下的spark-env.sh文件(如果不存在,则cp  spark-env.sh.template   spark-env.sh),修改为如下List-2,这个修改三台机器上都要做 );     为什么List-2中需要将hadoop的classpath加入到其中,是因为spark自1.4之后,编译都是没有将hadoop的classpath编译进去的,所以必须在spark-env.sh spark://192.168.33.30:7077     到此我们的集群启动完成了。     -1-master.out     在workerr1/worker2上,spark安装目录,执行如下: List-6 [root@node2 spark-mjduan]# sbin/start-slave.sh /logs/spark-root-org.apache.spark.deploy.worker.Worker-1-node2.out        之后看masterWebUrl,可以看到集群信息了。

    44710发布于 2019-05-06
  • 来自专栏绿巨人专栏

    Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用

    前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境,我们已经部署好了一个Spark的开发环境。 本文的目标是写一个Spark应用,并可以在集群中测试。 现在,我们完成了一个简单的spark工程的开发。下一步,看看如何在集群中运行。 启动一个standalone集群环境。 部署一个standalone集群环境不是本文要讲的内容。 下一步请看: Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用 Spark集群 + Akka + Kafka + Scala 开发 2.4.10 code samples akka office samples A simple Akka (actors) remote example Shutdown Patterns in AKKA 2

    88950发布于 2018-05-18
  • 来自专栏开源部署

    Spark集群安装

    这里是结合Hadoop2.0使用的 1,download :http://spark.incubator.apache.org/downloads.html选择prebuilt:中hadoop2的下载, 2,download scala,http://www.scala-lang.org/download/all.html根据下载的spark的README中的描述下载合适的版本 3,安装 其实就是解压, 配置 /etc/profile环境变量 export SPARK_HOME=/data1/spark/spark export SCALA_HOME=/data1/spark/scala-2.9.3 export PATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin 配置spark的conf下的spark-env.sh export Java_HOME=/usr/java/default 是停掉集群,start-all.sh启动集群,jps可以在主节点看到master进程,slave节点看到worker进程 5, 运行程序,运行例子进入spark目录下 分布式运行 .

    40010编辑于 2022-06-29
  • 来自专栏DevOps

    spark 集群搭建

    集群配置 以下操作以node01为操作节点 1. mv sbin/stop-all.sh sbin/stop-spark-all.sh 2. # 真实服务器如果有32个,你可以设置为32个 export SPARK_WORKER_CORES=1 # 每一个Worker最多可以使用的内存,我的虚拟机就2g # =node02:2181,node03:2181,node04:2181 -Dspark.deploy.zookeeper.dir=/spark-1106" 2. ,那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件,当你执行这两个文件,系统不知道是操作hadoop集群还是spark集群

    57810编辑于 2024-03-29
  • 来自专栏blog(为什么会重名,真的醉了)

    Spark集群安装-基于hadoop集群

    文章目录 hadoop集群 下载 环境配置 集群配置 测试 hadoop集群 参考使用docker部署hadoop集群-手把手复现 下载 首先查看hadoop版本 hadoop version 下载 SPARK_WORKER_MEMORY=2g export SPARK_WORKER_CORES=4 export SPARK_EXECUTOR_MEMORY=1g export HADOOP_HOME cd /usr/local/spark/conf cp workers.template workers vi workers #添加从节点: hadoop2 hadoop3 将主节点配置同步给从节点 scp -r /usr/local/spark/ hadoop2:/usr/local/ scp -r /usr/local/spark/ hadoop3:/usr/local/ 测试 #记得先启动hadoop /run-example SparkPi 2>&1 | grep "Pi is" cd /usr/local/spark/bin .

    1.6K30编辑于 2021-12-31
  • 来自专栏Jed的技术阶梯

    Spark HA集群搭建

    集群规划 ? 2. -2.2.0-bin-hadoop2.7 spark-2.2.0 (2) 修改spark-env.sh配置文件 # 把SPARK_HOME/conf/下的spark-env.sh.template文件复制为 最多可以使用的内存,我的虚拟机就2g # 真实服务器如果有128G,你可以设置为100G export SPARK_WORKER_MEMORY=1g # 在非HA配置中,配置了SPARK_MASTER_HOST HADOOP_HOME,那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件,当你执行这两个文件,系统不知道是操作hadoop集群还是spark集群 spark HA集群搭建成功!

    1.7K30发布于 2018-09-13
  • 来自专栏桃子小白

    Spark集群服务安装

    分发到slave1,slave2 [root@master-tz conf]# scp -r /usr/local/src/spark/ slave01-tz:/usr/local/src/ [root @master-tz conf]# scp -r /usr/local/src/spark/ slave02-tz:/usr/local/src/ 发送完毕后,启动spark集群 [hadoop@master-tz 使用本地模式运行Spark Pi程序 /usr/local/src/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi -- local/src/spark/examples/jars/spark-examples_2.11-2.0.0.jar 2 yarn-client使用指令 /usr/local/src/spark/ /src/spark/examples/jars/spark-examples_2.11-2.0.0.jar 2

    33510编辑于 2023-06-10
  • 来自专栏软件开发-青出于蓝

    Spark集群安装 原

    一个master和三个worker,同时Hadoop-2.7.7集群,namdenode在master上,俩个datanode在worker1和worker2上。 为master,修改worker2机器的hostname为node1,修改worker2机器的hostname为node2。     将spark放置于/opt下,如下List-2所示,三台机器上的都一样: List-2 [root@master opt]# ll total 20 drwxr-xr-x 2 root root 的内容,如下,之后用这个文件替换node1和node2spark-env.sh。 之后用这个文件替换node1和node2spark-defaults.conf。

    66430发布于 2019-04-15
  • 来自专栏行者悟空

    Spark集群概述

    摘 要 本文简要地概述一下Spark是如何在集群上运行,让它更容易理解。 Spark 组件说明 Spark的应用程序作为一个独立的进程在Spark集群上运行,并由SparkContext对象(驱动程序)来运行你的主应用程序。 2Spark不能直接知道底层的集群管理器,只要能获得执行器的进程,并且这些进程可以彼此相互通信,即使换成其他的管理器(例如Mesos或者Yarn),也是能轻易地运行。 集群管理器的类型 Spark目前仅支持一下三个管理器 Standalone:它是一个Spark内部的简单的集群管理器,可以很简单的搭建出一个集群。 Apache Mesos:它是一个通用的集群管理,可以运行在Hadoop Mapreduce和服务应用程序。 Hadoop YARN:它是Hadoop2.x中的资源管理器。

    66930发布于 2018-06-22
  • 来自专栏程序员千羽

    docker搭建spark集群

    docker搭建spark集群 有个小技巧:先配置好一个,在(宿主机上)复制scp -r拷贝Spark到其他Slaves。 )通过工具【XFtp】拷贝到虚拟主机的opt目录下: 2.通过脚本挂起镜像 cd /opt/script/setup/spark test-cluster-spk-master-01 #! /bin/bash #编写作者:千羽的编程时光 cname="test-cluster-spk-master-01" #port1="8080" #port2="7077" log="/opt/data :${port2} --name ${cname} --hostname ${cname} --privileged=true --restart=always docker run -d --net SPARK_WORKER_MEMORY=800m #export SPARK_DRIVER_MEMORY=4g export SPARK_EXECUTOR_INSTANCES=2 export HADOOP_CONF_DIR

    1K10编辑于 2023-08-28
  • 来自专栏开源部署

    spark集群环境搭建

    2.安装scala 下载路径: https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.tgz scala-2.12.8.tgz 把下载包上传解压 /conf/ #进入spark配置目录 mv spark-env.sh.template spark-env.sh #从配置模板复制 vi spark-env.sh #添加配置内容 export SPARK_HOME =spark1 SPARK_LOCAL_DIRS=/usr/local/spark-2.4.5-bin-hadoop2.7 SPARK_DRIVER_MEMORY=1G export SPARK_LIBARY_PATH :$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native、 vi slaves spark2 spark3 scp -r /usr/local /spark-2.4.5-bin-hadoop2.7 root@spark2:/usr/local/ scp -r /usr/local/spark-2.4.5-bin-hadoop2.7 root@spark3

    64630编辑于 2022-08-08
  • 来自专栏大数据技术博文

    Spark 集群环境部署

    本篇主要记录一下Spark 集群环境搭建过程以及在搭建过程中所遇到的问题及解决方案 主体分为三步 : 一 :基础环境配置 二 :安装包下载 三 :Spark 集群配置文件修改 四 :启动spark master / slaves 五 :编写脚本 一 :基础环境配置 本部分具体步骤可以参考Hadoop集群搭建中的前半部分关于Linux环境搭建以及系统环境配置 二 :安装包下载 下载链接 :http://spark.apache.org /downloads.html 在这里选择Spark对应的Hadoop版本 三 :Spark配置修改 需要修改的文件: 1:conf/spark-env 2 : conf/slaves 3 : sbin :检查slave节点的spark文件是否与master节点的文件一致,我这里导致的问题是从master节点分发到slave节点时,过程中断导致缺少文件 2 :异常信息 :在启动spark-shell时, ,第一段提示初始化hivesessinstate异常 2:从hadoop01连接到9000失败 3:没有找到spark.implicits._ ,spark.sql 包 解决: 起初以为是版本问题,就重新下载了一个版本

    1.1K50编辑于 2022-04-18
  • Spark yarn集群搭建

    yarn是hadoop的一个子项目,用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark集群是有3台虚拟机组成,都是centos系统的。 下面一步一步进行集群搭建。 一.配置hosts文件 为了方便地查找主机,hosts文件是主机名到ip的映射,不用去记各个主机的IP地址. slaves文件: slave1 slave2 配置好后再各个节点上同步,scp … scp -r spark root@slave1:/usr/local/software/ scp -r spark root@slave2:/usr/local/software/ 启动Spark,sbin/start-all.sh 验证 Spark 是否安装成功 主节点上启动了Master进程: 在 slave 上启动了Worker进程: 进入Spark的Web管理页面:ip:8080 七、运行示例 本例以集群模式运行SparkPi实例程序(deploy-mode 设置为cluster

    33310编辑于 2025-12-23
  • 来自专栏阿dai_linux

    Spark+Zookeeper搭建高可用Spark集群

    Spark三种分布式部署方式比较 目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,详情参考。 Spark standalone模式分布式部署 环境介绍 主机名 应用 tvm11 zookeeper tvm12 zookeeper tvm13 zookeeper、spark(master)、spark 配置spark spark服务配置文件主要有两个:spark-env.sh和slaves。 spark-evn.sh:配置spark运行相关环境变量 slaves:指定worker服务器 配置spark-env.sh:cp spark-env.sh.template spark-env.sh =2048m export SPARK_WORKER_CORES=2 export SPARK_WORKER_INSTANCES=2 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode

    1.9K10发布于 2020-03-05
  • 来自专栏王小雷

    Spark学习之在集群上运行Spark(6)

    Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。 2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。 3. Spark在分布式环境中的架构: [图片] Spark集群采用的是主/从结构,驱动器(Driver)节点和所有执行器(executor)节点一起被称为一个Spark应用(application)。 Spark自带的集群管理器被称为独立集群管理器。 4. 驱动器节点 Spark的驱动器是执行程序main()方法的进程。 集群管理器 Spark依赖于集群管理器来启动执行器节点,在某特殊情况下,也依赖集群管理器来启动驱动器节点。 7.

    847100发布于 2018-01-02
  • 来自专栏日常杂记

    生产集群spark报错问题

    2、修改分区 通过spark.sql.shuffle.partitions控制分区数,默认为200,根据shuffle的量以及计算的复杂度适当提高这个值,例如500。 2、报错提示 (1) missing output location org.apache.spark.shuffle.MetadataFetchFailedException: Missing an  output location for shuffle 0  (2) shuffle fetch faild org.apache.spark.shuffle.FetchFailedException: 2、Executor&Task Lost 1、问题描述 因为网络或者gc的原因,worker或executor没有接收到executor或task的心跳反馈 2、报错提示 executor lost WARN 2、错误提示 数据倾斜 任务倾斜 差距不大的几个task,有的运行速度特别慢。 3、解决方案 数据倾斜:数据倾斜大多数情况是由于大量null值或者""引起,在计算前过滤掉这些数据既可。

    2.9K20发布于 2021-03-17
  • 来自专栏迁移内容

    Spark运行standalone集群模式

    spark集群主要有三种运行模式standalone、yarn、mesos,其中常被使用的是standalone和yarn,本文了解一下什么是standalone运行模式,并尝试搭建一个standalone 集群 一、standalone模式 standalone模式,是spark自己实现的,它是一个资源调度框架。 ,我们看一下它的运行流程,如图: 1)当spark集群启动以后,worker节点会有一个心跳机制和master保持通信; 2)SparkContext连接到master以后会向master申请资源,而 3.0、准备条件 机器(默认配置好了主机名、映射和免密登录) hostname 系统版本 master CentOS7.6 slave1 CentOS7.6 slave2 CentOS7.6 3.1 cp slaves.template slaves 添加作为worker的机器地址 slave1 slave2 3.4、启动 Spark 集群 $ sbin/start-all.sh [外链图片转存失败

    76910编辑于 2022-12-01
  • 来自专栏大数据学习笔记

    Spark 3.1 Standalone集群搭建

    https://www.apache.org/dyn/closer.lua/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz 2、解压配置 (1)解压 [root @node2 app]# ls nacos spark-3.1.2-bin-hadoop3.2.tgz [root@node2 app]# tar -zxvf spark-3.1.2-bin-hadoop3.2 .tgz (2)重命名 [root@node2 app]# mv spark-3.1.2-bin-hadoop3.2 spark-3.1.2 [root@node2 app]# cd spark-3.1.2 4)配置spark-env.sh [root@node2 conf]# cp spark-env.sh.template spark-env.sh [root@node2 conf]# vi spark-env.sh @node2 app]# scp -r spark-3.1.2 node3:/app 3、启动集群 [root@node1 app]# cd spark-3.1.2 [root@node1 spark

    76430发布于 2021-08-13
  • 来自专栏foochane

    spark+hadoop集群搭建

    环境: hadoop-2.6.5 spark-2.3.0 scala-2.12.5 1 设置IP 2 配置ssh 3 安装Java 3.1 下载JDK 本次选择的是 jdk-8u171-linux-x64 因为之前有跑过伪分布式模式,建议在切换到集群模式前先删除之前的临时文件。在 Master 节点上执行: //先开Slave 虚拟机 sudo rm -r . =192.168.200.122 export SPARK_WORKER_INSTANCES=2 export SPARK_WORKER_MEMORY=1g export SPARK_WORKER_CORES ) cd conf/ cp slaves.template slaves vim slaves #insert Slave1 Slave2 配置系统环境变量 加入 export SPARK_HOME /spark.master.tar.gz slave2@slave2:/home/slave2/cluster/software 在 Slave1 节点上执行(其他的也一样): sudo rm -r /

    2.2K21发布于 2019-05-23
  • 来自专栏大数据学习与分享

    Spark集群和任务执行

    【前言:承接《Spark通识》篇】 Spark集群组件 ? Spark是典型的Master/Slave架构,集群主要包括以下4个组件: Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。 类比于MapReduce的MRAppmaster Master:主节点,控制整个集群,监控worker。在Yarn模式中为全局资源管理器 Worker:从节点,负责控制计算节点,启动Executor。 类似于MapReduce中的MapTask和ReduceTask Spark基本执行流程 以StandAlone运行模式为例: ? 1.客户端启动应用程序及Driver相关工作,向Master提交任务申请资源 2.Master给Worker分配资源,通知worker启动executor 3.Worker启动Executor,Worker

    50230发布于 2020-08-10
领券