首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >火花-提交给AWS电子病历

火花-提交给AWS电子病历
EN

Stack Overflow用户
提问于 2022-07-18 19:15:46
回答 1查看 260关注 0票数 0

我在AWS中创建了一个EMR集群(emr-5.36.0),其中包含默认的sparks组件(Spark2.4.8,Hive2.3.9)。我已经在EC2上,在python虚拟环境中安装了Pyspark (3.3.0)。从那里,我想运行“火花-提交”命令到电子病历集群。

为了测试这个命令,我使用了此页底部的python代码

为了在YARN_CONF_DIR上配置EC2环境变量,我将SET-site.xml文件从/etc/hadoop/ node .空/复制到EC2的一个文件夹中。

但是现在,在EC2上,当我试图运行火花提交时,我得到了:

代码语言:javascript
复制
$ export YARN_CONF_DIR=/home/me/spark/   
$ spark-submit --master yarn --deploy-mode cluster spark_test.py   
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/shaded/javax/ws/rs/core/NoContentException
    at org.apache.hadoop.yarn.util.timeline.TimelineUtils.<clinit>(TimelineUtils.java:60)
    at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.serviceInit(YarnClientImpl.java:200)
    at org.apache.hadoop.service.AbstractService.init(AbstractService.java:164)
    at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:191)
    at org.apache.spark.deploy.yarn.Client.run(Client.scala:1327)
    at org.apache.spark.deploy.yarn.YarnClusterApplication.start(Client.scala:1764)
    at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:958)
    at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:180)
    at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:203)
    at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:90)
    at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1046)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1055)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.shaded.javax.ws.rs.core.NoContentException
    at java.base/jdk.internal.loader.BuiltinClassLoader.loadClass(BuiltinClassLoader.java:581)
    at java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:178)
    at java.base/java.lang.ClassLoader.loadClass(ClassLoader.java:522)
    ... 13 more 22/07/18 18:36:25 INFO ShutdownHookManager: Shutdown hook called

从现在起我基本上迷失了方向。我试图谷歌错误,但我仍然不清楚错误是什么。我错过了一步吗?也许是环境变量?

最终,我想在气流中使用SparkSubmitOperator,但我认为在使用运算符(这只是一个包装器)之前,我应该首先使用“本机”命令。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-07-20 17:56:35

如果您执行needs _CONF_DIR=/etc/hadoop_ hadoop_files /本地,则文件夹的内容需要是EMR的/etc/hadoop/文件夹的内容,而不是/etc/hadoop/CONF.空/。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73027504

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档