文章/答案/技术大牛

发布

社区首页 >问答首页 >通过AWS向aws EMR提交火花作业和参数

问通过AWS向aws EMR提交火花作业和参数
EN

Stack Overflow用户

提问于 2022-04-08 18:20:21

回答 1查看 774关注 0票数 0

我希望修改提交到Google集群中的火花作业。这些作业将在AWS EMR集群上运行。

gcloud dataproc jobs submit spark \
--cluster "${HADOOP_CLUSTER_NAME}" \
--properties "${SPARK_PARTITIONS}${SPARK_PARALLELISM}spark.master=yarn,spark.app.name=${APP},spark.sql.parquet.mergeSchema=false,spark.driver.memory=${D_MEMORY},spark.ui.port=0,spark.dynamicAllocation.enabled=false,spark.executor.extraJavaOptions=-XX:+UseG1GC -XX:InitiatingHeapOccupancyPercent=35,spark.driver.extraClassPath=/usr/lib/hadoop-lzo/lib/*:./" \
--class com.custom.scriptrunner.MyCustomSparkScriptRunner \
--files $CONFIG,$TRUSTSTORE \
--jars $JARS \
-- -s $SCRIPT -c $CONFIG_FILE -r $CONFIG_ROOT -l myMetrics

我尝试了以下方法:直接在主节点上提交，而不是AWS EMR cli：

spark-submit --deploy-mode cluster --class com.custom.scriptrunner.MyCustomSparkScriptRunner --files $CONFIG_FILE --jars $JARS --conf spark.app.name=${APP} --conf spark.driver.extraClassPath=/usr/lib/hadoop-lzo/lib/*:./ -s $SCRIPT -c $CONFIG_FILE_NAME -r $CONFIG_ROOT -l myMetrics

但是我找不到一种方法来添加下面的参数行(使用火花提交或AWS EMR )。它不承认这些选择。

-- -s $SCRIPT -c $CONFIG_FILE -r $CONFIG_ROOT -l myMetrics

还找到了这个AWS命令，但仍然找不到指定上述参数的语法。

aws emr add-steps --cluster-id j-xxxxxxxx --steps Name="add emr step to run spark",Jar="command-runner.jar",Args=[spark-submit,--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/examples/jars/spark-examples.jar,10]

amazon-emr

amazon-web-services

apache-spark

回答 1

Stack Overflow用户

发布于 2022-04-09 15:29:56

您可以传递参数以激发提交为这里，并按其在应用程序代码中的位置读取每个参数。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71801618

复制

相似问题

问通过AWS向aws EMR提交火花作业和参数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过AWS向aws EMR提交火花作业和参数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过AWS向aws EMR提交火花作业和参数
EN