我正在尝试运行h2o.automl(),但是它一直失败,因为我的ncpus已经用完了。
我通过请求47个线程来启动我的h20会话:h2o.init(nthreads=47)
我在开始时提供了足够数量的ncpus和内存:
R连接到H2O集群: H2O集群正常运行时间:2秒286毫秒H2O集群时区:欧洲/伦敦H2O数据解析时区: UTC H2O集群版本: 3.18.0.4 H2O集群版本年龄: 18天H2O集群名称: H2O_started_from_R_cmorgan1_gvi181 H2O集群总节点:1 H2O集群总内存: 26.67 GB H2O群集总核心:40个H2O群集允许核心:40个H2O集群健康:真实H2O连接ip: localhost H2O连接端口: 54321 H2O连接代理: NA H2O内部安全: FALSE H2O API扩展: XGBoost,Algos,AutoML,Core V3,Core V4 R版本:r版本3.4.1 (2017-06-30)
然而,经过一段时间(38%的完成),它削减和告诉我,我没有足够的ncpus。
|======================================================================| 100% |==== |======= |========= |========== |============== |================ |================= |=========== |=== |=========================== 38%=>> PBS:作业被杀: ncpus 33.43超过限制32 (总金额) ============================================ 请求作业资源使用摘要内存(GB) NCPU: 45 48使用: 12 (峰值) 36.00 (ave)
以前有人遇到过这种情况吗?你周围有工作吗?我不认为我的数据是异常大小的,它有29个缩放参数和94,000行数据。
谢谢你,
发布于 2018-03-27 10:48:34
这与H2O无关。
这里的线索是"PBS: job被杀“的信息。
这里的少量互联网搜索表明,您正在以某种方式使用PBS调度器(System),这将扼杀您的工作。(我以前从未见过任何人使用PBS,但基于上述信息,这一切似乎都很可能发生。)
由于PBS告诉您您的限制是32个内核,我建议您尝试指定一个小于该值的值。也许使用h2o.init(nthreads=30),PBS不会再扼杀您的进程了。
https://stackoverflow.com/questions/49510134
复制相似问题