搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏SnailTyan
spark-submit介绍
1. spark-submit介绍 spark-submit脚本通常位于/usr/local/spark/bin目录下，可以用which spark-submit来查看它所在的位置，spark-submit 为了将应用发布到集群中，通常会将应用打成.jar包，在运行spark-submit时将jar包当做参数提交。 2. spark-submit参数 spark-submit脚本使用时有很多启动参数，启动参数说明如下： Parameters Description Demo –master 集群master的URL
3.7K10发布于 2019-05-25
来自专栏小道
spark-submit --files
一、原理 spark-submit --files通常用来加载外部资源文件，在driver和executor进程中进行访问 –files和–jars基本相同二、使用步骤 2.1 添加文件 spark-submit --files file_paths 其中file_paths可为多种方式：file: | hdfs:// | http:// | ftp:// | local:（多个路径用逗号隔开） spark-submit \ --master yarn \ --deploy-mode cluster \ --principal xxx.com \ --keytab /xxx/keytabs/ SNAPSHOT.jar -jn $obj -sq "$sql" -ptby $ptby 2.2 获取文件 2.2.1 方案一 //If you add your external files using "spark-submit 值得一提的是，在cluster模式下，spark-submit --deploy-mode cluster path-to-jar，其中path-to-jar也必须是全局可视路径，否则会发生找不到
1.5K20编辑于 2023-10-17
来自专栏信息技术智库
spark-submit 参数设置
在使用spark时，根据集群资源情况和任务数据量等，合理设置参数，包括但不限于以下：
1K50编辑于 2022-07-29
来自专栏大数据成神之路
Spark-submit 参数调优完整攻略
该参数主要用于设置该应用总共需要多少executors来执行，Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数，并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况，太少了无法充分利用集群资源，太多了则难以分配需要的资源。
3.6K20发布于 2020-07-21
来自专栏Deep learning进阶路
Pyspark学习笔记（二）--- spark-submit命令
Pyspark学习笔记（二）--- spark-submit命令 ? 非交互式应用程序，通过spark-submit命令提交任务,官方讲解如下链接所示 http://spark.apache.org/docs/latest/submitting-applications.html #submitting-applications, spark-submit脚本位于spark安装目录下的bin文件夹内，该命令利用可重用的模块形式编写脚本，以编程方式提交任务到Spark上去，并可以支持不同的集群管理器和通用的spark-submit命令为： ${SPARK_HOME}/bin/spark-submit \ --class <main-class> \ --master <master-url
2.6K21发布于 2021-05-10
来自专栏技术学习
springboot开发spark-submit的java代码
springboot开发spark-submit的java代码前言习惯使用spark-submit提交python写的pyspark脚本，突然想开发基于springboot开发java spark代码数据处理完整工程代码见文章1 代码结构如下图： data目录存在测试数据； script脚本为linux下的spark-submit启动脚本； src目录为基于springboot的业务逻辑代码。 --可打包，可本地spark-submit, 但是不能在集群中运行--> <plugin> <groupId>org.springframework.boot</groupId> > </execution> </executions> </plugin> maven-compiler-plugin,maven-assembly-plugin：本地spark-submit </execution> </executions> </plugin> maven-shade-plugin 可以正常打包，正常运行
本章6指出springboot 打spark-submit
3.1K00发布于 2020-08-02
来自专栏大数据智能实战
spark-submit动态提交的办法（SparkLauncher实战）
spark程序编译完成后，一般都要传送到spark-submit进行调用。然而为了使程序更加易于集成，需要spark-submit能够动态化 SparkLauncher是spark提供的外部调用的接口。
1.2K30编辑于 2022-05-07
来自专栏python前行者
spark-submit提交任务及参数说明
文章目录例子 spark-submit 详细参数说明 --master --deploy-mode --class --name --jars --packages --exclude-packages total-executor-cores --num-executors --executor-core 提交python脚本 spark2-submit 提交 python(pyspark)项目 local yarn spark-submit /bin/spark-submit \ --master spark://localhost:7077 \ examples/src/main/python/pi.py 如果部署 hadoop，并且启动 /bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ 1g \ --executor-cores 1 \ --queue thequeue \ examples/target/scala-2.11/jars/spark-examples*.jar 10 spark-submit
10K21发布于 2021-07-14
来自专栏暴走大数据
提交Spark作业 | 科学设定spark-submit参数
bin/spark-submit \ --class com.xyz.bigdata.calendar.PeriodCalculator \ --master yarn \ --deploy-mode conf "spark.executor.extraJavaOptions=-XX:+UseG1GC" \ --verbose \ ${PROJECT_DIR}/bigdata-xyz-0.1.jar 关于spark-submit 一句话总结 spark-submit参数的设定有一定的准则可循，但更多地是根据实际业务逻辑和资源余量进行权衡。
2.2K20发布于 2020-11-03
来自专栏Spark学习技巧
聊聊spark-submit的几个有用选项
我们使用spark-submit时，必然要处理我们自己的配置文件、普通文件、jar包，今天我们不讲他们是怎么走的，我们讲讲他们都去了哪里，这样我们才能更好的定位问题。我们在使用spark-submit把我们自己的代码提交到yarn集群运行时，spark会在yarn集群上生成两个进程角色，一个是driver，一个是executor，当这两个角色进程需要我们传递一些资源和信息时，我们往往会使用spark-submit的选项来进行传递。那么这些资源和信息，在使用spark-submit指定了之后，都去了哪里呢，为什么远在机房的driver和executor能正确的读到这些东东呢？为什么我明明按照spark-submit的帮助信息指定了这些东西，但是driver或者executor还是报错呢？本篇文章提供一个方法帮大家进行相关问题的定位。
2.8K30发布于 2018-06-22
来自专栏大数据与云原生
Spark源码分析-作业提交(spark-submit)
/bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> conf <key>=<value> \ ... # other options <application-jar> \ [application-arguments] Shell过程 bin/spark-submit -r ARG; do CMD+=("$ARG") done < <(build_command "$@") #启动上面java进程标准输出组成的命令 exec "${CMD[@]}" 如果展开spark-submit Xmx128m -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main org.apache.spark.deploy.SparkSubmit <spark-submit 对于spark-submit，要启动的class是SparkSubmit。
1.4K30编辑于 2022-03-30
来自专栏容器计算
Spark-Submit 和 K8S Operation For Spark
关于 spark-submit spark-submit 是 Apache Spark 项目的一部分在即将到来的 Spark 3.0，关于 Spark Pods 的配置上会跟 Operator 靠拢 2.3 How Does Spark-Submit Work 在 Client 模式，spark-submit 直接将 Spark 作业通过 Spark 环境变量初始化了，这意味着，Spark 的 Driver 然后 K8S 的相关参数以及 spark-submit 的参数就会结合一起，提交给 API Server，然后就会像写 spark-submit 脚本一样，在 K8S 集群中创建 Driver Pod 这里再比较一下 spark-submit 和 Operator for Spark 的一些异同点。显然本文反复提示的，就是 spark-submit，也就是目前 spark 2.4 提供的功能中，是不能对 Spark 作业进行交互式的参数调整的，而 Operator 方案相比 spark-submit
2.3K21发布于 2020-08-06
来自专栏岑玉海
Spark源码系列（一）spark-submit提交作业过程
/bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138: executor-memory 20G \ --total-executor-cores 100 \ /path/to/examples.jar \ 1000 这个是提交到standalone集群的方式，打开spark-submit
2.4K60发布于 2018-02-28
来自专栏Spark生态圈
从spark-submit开始解析整个任务调度流程
本文在spark2.1以Standalone Cluster模式下解析概述 spark应用程序可以以Client模式和Cluster启动，区别在于Client模式下的Driver是在执行spark-submit 大概流程为：通过spark-submit提交会调用SparkSubmit类，SparkSubmit类里通过反射调用Client，Client与Master通信来SubmitDriver，收到成功回复后退出接着就是job的执行了，可以参看前面的文章…… Submit Driver 通过shell命令spark-submit提交一个自己编写的application，最终实际是通过java -cp调用的类是：
2.3K30发布于 2018-08-29
来自专栏Deep learning进阶路
Pyspark学习笔记（二）--- spark部署及spark-submit命令简介
Pyspark学习笔记（二）--- spark部署及spark-submit命令简介目录 Pyspark学习笔记（二）--- spark部署及spark-submit命令简介 1.Spark的部署模式 1.1 本地模式 1.2 Spark独立集群(Standalone Deploy Mode) 1.3 基于Hadoop YARN 部署 1.4 基于Kubernetes(即k8s)部署 2. spark-submit 2. spark-submit 命令非交互式应用程序，通过spark-submit命令提交任务,官方讲解如下链接所示 : Submitting Applications - Spark 3.2.1 Documentation spark-submit脚本位于spark安装目录下的bin文件夹内，该命令利用可重用的模块形式编写脚本，以编程方式提交任务到Spark上去，并可以支持不同的集群管理器和 Spark支持的部署模式通用的spark-submit命令为： ${SPARK_HOME}/bin/spark-submit \ --class <main-class> \ --master
3.1K10编辑于 2022-11-28
来自专栏xingoo, 一个梦想做发明家的程序员
Spark源码分析之Spark-submit和Spark-class
前面总结的Spark-shell的分析可以参考： Spark源码分析之Spark Shell（上） Spark源码分析之Spark Shell（下） Spark-submit if [ -z "${SPARK_HOME
1.3K50发布于 2018-01-17
来自专栏SmartSi
Spark2.3.0 使用spark-submit部署应用程序
简介 Spark的 bin 目录中的 spark-submit 脚本用于在集群上启动应用程序。语法 xiaosi@yoona:~/opt/spark-2.1.0-bin-hadoop2.7$ spark-submit --help Usage: spark-submit [options] <app 使用spark-submit启动应用程序用户应用程序打包成功后，就可以使用 bin/spark-submit 脚本启动应用程序。如果要列举 spark-submit 所有可用选项，可以使用 spark-submit --help 命令来查看。以下是常见选项的几个示例： # 在本地运行 8 核 . 以这种方式加载 Spark 默认配置可以避免在 spark-submit 上添加配置选项。
3.5K40发布于 2019-08-07
来自专栏容器计算
Spark Operator 是如何提交 Spark 作业
，我的建议是先从提交 spark-submit 命令相关的逻辑开始看就会很容易理解。 ("spark-submit output: %s", string(output)) if err ! 之前的文章有提到过，在 Spark Operator 里提交 Spark 任务，spark-submit 的过程是很难 Debug 的，原因就在于下面的截图代码里，这里的 output 是执行 spark-submit spark-submit 过程中的问题，在 Spark Operator 中就难以体现了。这里必须注意到，一般上来说，base 镜像只会影响 spark-submit 的过程，如果用户修改的代码逻辑不影响 spark-submit，那么就没有必要重新编译 Spark Operator 的镜像
1.8K30发布于 2020-08-06
来自专栏Spark学习技巧
大数据基础系列之提交spark应用及依赖管理
在Spark的bin目录下的spark-submit脚本用于提交一个任务到集群中。二，用spark-submit提交你的应用一旦应用打包号以后，就可以用spark-submit脚本去提交它。该脚本负责设置spark和它依赖的Classpath，支持多种集群管理器和部署模式： . Spark默认配置的优先级是SparkConf设置的，spark-submit设置的，然后是默认配置文件读取的。假如你对配置属性的来源不清晰，可以在运行spark-submit的时候指定--verbose参数来输出详细的调试信息。五，高级依赖管理当使用spark-submit，用户的jar和--jars选项指定的jar会被自动传输到集群。
1.6K90发布于 2018-01-30
来自专栏LhWorld哥陪你聊算法
【Spark篇】---Spark中资源和任务调度源码分析与资源配置参数应用
二、具体细节 1、Spark-Submit提交参数 Options: --master MASTER_URL, 可以是spark://host:port, mesos://host:port, yarn 使用Spark-submit提交任务演示。 /spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi .. /spark-submit --master spark://node01:7077 --executor-cores 1 --class org.apache.spark.examples.SparkPi /spark-submit --master spark://node01:7077 --executor-cores 1 --executor-memory 2g --total-executor-cores
1.6K30发布于 2018-09-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

spark-submit介绍

spark-submit --files

spark-submit 参数设置

Spark-submit 参数调优完整攻略

Pyspark学习笔记（二）--- spark-submit命令

springboot开发spark-submit的java代码

spark-submit动态提交的办法（SparkLauncher实战）

spark-submit提交任务及参数说明

提交Spark作业 | 科学设定spark-submit参数

聊聊spark-submit的几个有用选项

Spark源码分析-作业提交(spark-submit)

Spark-Submit 和 K8S Operation For Spark

Spark源码系列（一）spark-submit提交作业过程

从spark-submit开始解析整个任务调度流程

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

Spark源码分析之Spark-submit和Spark-class

Spark2.3.0 使用spark-submit部署应用程序

Spark Operator 是如何提交 Spark 作业

大数据基础系列之提交spark应用及依赖管理

【Spark篇】---Spark中资源和任务调度源码分析与资源配置参数应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐