首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google Dataproc Pyspark属性

Google Dataproc Pyspark属性
EN

Stack Overflow用户
提问于 2018-02-14 12:19:42
回答 3查看 3K关注 0票数 1

我正在尝试向google dataproc集群提交一个pyspark,并且我想在命令行中指定pyspark配置的属性。文档说我可以用--properties标志指定这些属性。我尝试运行的命令如下所示:

代码语言:javascript
复制
gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster  —-properties=executor-memory=10G --properties=driver-memory=46G --properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt

我认真地尝试了我能想到的属性标志的每种组合:

代码语言:javascript
复制
gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster  —-properties executor-memory=10G, driver-memory=46G,properties=num-executors=20 -- -i X_small_train.txt -l y_small_train.txt -u X_small_test.txt -v y_small_test.txt

等等,但我似乎不能让它工作。一直给我这个错误:

代码语言:javascript
复制
ERROR: (gcloud.dataproc.jobs.submit.pyspark) unrecognized arguments: —-properties=executor-memory=10G
Usage: gcloud dataproc jobs submit pyspark PY_FILE --cluster=CLUSTER [optional flags] [-- JOB_ARGS ...]
  optional flags may be  --archives | --driver-log-levels | --files | --help |
                     --jars | --labels | --properties | --py-files | -h

有人知道怎么做吗?它说它需要一个键值对列表,但是列表的格式是什么呢?

EN

回答 3

Stack Overflow用户

发布于 2018-02-15 02:59:08

您应该在单个标志中指定属性,如下所示:

代码语言:javascript
复制
--properties=executor-memory=10G,driver-memory=46G,num-executors=20

您还可以使用':‘而不是'=’,以减少与其他标志的歧义,例如:

代码语言:javascript
复制
 --properties=executor-memory:10G,driver-memory:46G,num-executors:20
票数 1
EN

Stack Overflow用户

发布于 2018-02-15 11:12:21

列表的格式是单个字符串,用逗号分隔k/v对,用引号括起来:

代码语言:javascript
复制
gcloud dataproc jobs submit pyspark simpleNB.py --cluster=elinorcluster \
  —-properties='spark.executor.memory=10G,spark.driver.memory=46G,\
  spark.num.executors=20' -- -i X_small_train.txt -l y_small_train.txt\
  -u X_small_test.txt -v y_small_test.txt

这些属性还需要是合法的pyspark属性配置语法,而driver-memory=46G不是,而spark.driver.memory=46G是。

票数 0
EN

Stack Overflow用户

发布于 2018-02-20 17:37:30

Pyspark属性名称必须与此list上的名称相同。属性的正确command syntax是:

gcloud dataproc jobs submit pyspark PY_FILE --cluster=CLUSTER --properties=[PROPERTY-A=VALUE-A,PROPERTY-B=VALUE-B,…]

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48779612

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档