我正在使用dataproc提交工作的火花。然而,在火花提交时,非火花参数被解读为火花参数!
当运行特定作业时,我将收到下面的错误/警告。
Warning: Ignoring non-spark config property: dataproc:dataproc.conscrypt.provider.enable=false
gcloud dataproc jobs submit spark \
--cluster my-cluster \
--region us-east1 \
--properties dataproc:dataproc.conscrypt.provider.enable=false,spark.executor.extraJavaOptions=$SPARK_CONF,spark.executor.memory=${MEMORY}G,spark.executor.cores=$total_cores \
--class com.sample.run \
--jars gs://jars/jobs.jar \
-- 1000我想知道我现在的格式有什么问题。提前谢谢。
发布于 2019-06-10 18:40:13
spark-submit只是默默地忽略了那些不以星星之火开头的conf选项。这就是为什么这个属性它说它被忽略了。
--properties dataproc:dataproc.conscrypt.provider.enable=false任何应作为spark.属性名传递的属性
这只是警告。
为什么需要这样的财产:
氪星安全提供程序已暂时从默认更改为可选的安全提供程序。此更改是由于与某些工作负载不兼容造成的。将来CloudDataproc1.2的发布将重新启用Conscrypt提供程序,作为默认版本。同时,您可以通过指定此Cloud属性,在创建集群时重新启用Conscrypt提供程序:
创建群集时必须指定--properties dataproc:dataproc.conscrypt.provider.enable=true --因为这是群集属性,而不是星星之火的属性。(这意味着星火框架无法理解这一点,而只是忽略了它。)
示例用法:
gcloud beta dataproc clusters create my-test
--project my-project
--subnet prod-sub-1
--zone southamerica-east1-a
--region=southamerica-east1
--master-machine-type n1-standard-4
--master-boot-disk-size 40
--num-workers 5
--worker-machine-type n1-standard-4
--worker-boot-disk-size 20
--image-version 1.2
--tags internal,ssh,http-server,https-server
--properties dataproc:dataproc.conscrypt.provider.enable=false
--format=json
--max-idle=10m然后像这样开始工作..。
gcloud dataproc jobs submit pyspark gs://path-to-script/spark_full_job.py
--cluster=my-test
--project=my-project
--region=southamerica-east1
--jars=gs://path-to-driver/mssql-jdbc-6.4.0.jre8.jar
--format=json -- [JOB_ARGS]https://stackoverflow.com/questions/56531526
复制相似问题