文章/答案/技术大牛

发布

社区首页 >问答首页 >如何获得火花SUBMISSION_ID与火花提交？

问如何获得火花SUBMISSION_ID与火花提交？
EN

Stack Overflow用户

提问于 2019-03-13 06:55:08

回答 1查看 4.1K关注 0票数 1

许多地方都需要SUBMISSION_ID，比如spark-submit --status和Spark。但是，当我使用SUBMISSION_ID命令提交火花作业时，如何获得这个spark-submit呢？

P.S.：

我使用python [popen][2]启动spark-submit作业。我想要SUBMISSION_ID，这样我的python程序就可以通过REST：<ip>:6066/v1/submissions/status/<SUBMISSION_ID>监视火花作业状态。

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-15 08:14:44

多亏了潘迪的线索。https://stackoverflow.com/a/37980813/5634636的答案对我有很大帮助。

TL;DR

如果您想在本地提交火花作业，答案https://stackoverflow.com/a/37980813/5634636确实有效。唯一的要点是您必须使用cluster模式来提交作业，即使用参数--deploy-mode cluster。
如果要远程提交火花作业，请使用火花提交API。会有很大帮助的。详情请参见https://www.nitendragautam.com/spark/submit-apache-spark-job-with-rest-api/。

详细描述

注意:我只在ApacheSpark2.3.1上测试我的方法。我不能保证它也能在其他版本中工作。

让我们先澄清我的要求。有三个我想要的特征：

远程提交火花作业
随时检查作业状态(运行、错误、完成.)
如果有错误，请获取错误消息。

在本地提交

注意:此答案仅适用于集群模式。

火花工具spark-submit将有所帮助。

若要提交作业，请参见https://spark.apache.org/docs/2.4.0/submitting-applications.html#launching-applications-with-spark-submit
要检查状态，请参阅https://stackoverflow.com/a/37420931/5634636。通过这种方式，您需要一个SubmissionID。这个答案https://stackoverflow.com/a/37980813/5634636告诉您如何在集群模式中获得提交id 。提交id看起来像driver-20190315142356-0004。
错误消息包含在作业状态消息中。

远程提交

建议使用火花提交API。似乎在Apache官方网站上没有任何文档，所以有些人称它为隐藏API。有关详细信息，请参阅：https://www.nitendragautam.com/spark/submit-apache-spark-job-with-rest-api/

若要提交火花作业，请使用提交API
要获得作业的状态，请使用status：http://<master-ip>:6066/v1/submissions/status/<submission-id>。当您提交作业时，submission-id将在json中返回。
错误消息包含在状态消息中。
关于错误消息的更多信息:注意状态错误和失败之间的区别。简而言之，失败意味着在执行火花作业过程中出现了一些错误(例如，未提及的异常)，而错误则意味着在提交过程中出现了一些错误(例如无效的jar路径)。状态json中包含错误消息。如果要查看失败原因，可以通过http://<driver-ip>:<ui-port>/log/<submission-id>访问该原因。

下面是错误状态的一个示例(*是一个错误的jar路径，它是故意写错的)：

{
  "action" : "SubmissionStatusResponse",
  "driverState" : "ERROR",
  "message" : "Exception from the cluster:\njava.io.FileNotFoundException: File hdfs:**** does not exist.\n\torg.apache.hadoop.hdfs.DistributedFileSystem.listStatusInternal(DistributedFileSystem.java:795)\n\torg.apache.hadoop.hdfs.DistributedFileSystem.access$700(DistributedFileSystem.java:106)\n\torg.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:853)\n\torg.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:849)\n\torg.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)\n\torg.apache.hadoop.hdfs.DistributedFileSystem.listStatus(DistributedFileSystem.java:860)\n\torg.apache.spark.util.Utils$.fetchHcfsFile(Utils.scala:727)\n\torg.apache.spark.util.Utils$.doFetchFile(Utils.scala:695)\n\torg.apache.spark.util.Utils$.fetchFile(Utils.scala:488)\n\torg.apache.spark.deploy.worker.DriverRunner.downloadUserJar(DriverRunner.scala:155)\n\torg.apache.spark.deploy.worker.DriverRunner.prepareAndRunDriver(DriverRunner.scala:173)\n\torg.apache.spark.deploy.worker.DriverRunner$$anon$1.run(DriverRunner.scala:92)",
  "serverSparkVersion" : "2.3.1",
  "submissionId" : "driver-20190315160943-0005",
  "success" : true,
  "workerHostPort" : "172.18.0.4:36962",
  "workerId" : "worker-20190306214522-172.18.0.4-36962"
}

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55136037

复制

相似问题

问如何获得火花SUBMISSION_ID与火花提交？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何获得火花SUBMISSION_ID与火花提交？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何获得火花SUBMISSION_ID与火花提交？
EN