首页
学习
活动
专区
圈层
工具
发布

H20 - ncpus
EN

Stack Overflow用户
提问于 2018-03-27 10:11:16
回答 1查看 833关注 0票数 1

我正在尝试运行h2o.automl(),但是它一直失败,因为我的ncpus已经用完了。

我通过请求47个线程来启动我的h20会话:h2o.init(nthreads=47)

我在开始时提供了足够数量的ncpus和内存:

R连接到H2O集群: H2O集群正常运行时间:2秒286毫秒H2O集群时区:欧洲/伦敦H2O数据解析时区: UTC H2O集群版本: 3.18.0.4 H2O集群版本年龄: 18天H2O集群名称: H2O_started_from_R_cmorgan1_gvi181 H2O集群总节点:1 H2O集群总内存: 26.67 GB H2O群集总核心:40个H2O群集允许核心:40个H2O集群健康:真实H2O连接ip: localhost H2O连接端口: 54321 H2O连接代理: NA H2O内部安全: FALSE H2O API扩展: XGBoost,Algos,AutoML,Core V3,Core V4 R版本:r版本3.4.1 (2017-06-30)

然而,经过一段时间(38%的完成),它削减和告诉我,我没有足够的ncpus。

|======================================================================| 100% |==== |======= |========= |========== |============== |================ |================= |=========== |=== |=========================== 38%=>> PBS:作业被杀: ncpus 33.43超过限制32 (总金额) ============================================ 请求作业资源使用摘要内存(GB) NCPU: 45 48使用: 12 (峰值) 36.00 (ave)

以前有人遇到过这种情况吗?你周围有工作吗?我不认为我的数据是异常大小的,它有29个缩放参数和94,000行数据。

谢谢你,

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-03-27 10:48:34

这与H2O无关。

这里的线索是"PBS: job被杀“的信息。

这里的少量互联网搜索表明,您正在以某种方式使用PBS调度器(System),这将扼杀您的工作。(我以前从未见过任何人使用PBS,但基于上述信息,这一切似乎都很可能发生。)

由于PBS告诉您您的限制是32个内核,我建议您尝试指定一个小于该值的值。也许使用h2o.init(nthreads=30),PBS不会再扼杀您的进程了。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49510134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档