我们正在AWS上运行h2o,并在GBM上使用14 GBM的CSV数据集训练一个模型,该数据集达到36%,然后出错:
“Java堆空间”,由java.lang.OutOfMemoryError引起:Java堆空间
以下是我们环境的规格:
h2o Cluster Version: 3.17.0.4153
R Version: 3.4.3
java version "1.8.0_77"
Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
Algorithm: GBM
Training DataSet: CSV with 1000 cols, 2,695,297 lines, that is 14gb in size
AWS:
Model vCPU Mem (GiB) Storage
t2.2xlarge 8 32 EBS-Only问题:
在这样大的数据集上训练GBM需要多少内存?
有什么配置可以让h20更好地管理内存吗?将可用内存限制在一定范围内,然后在没有崩溃或其他东西的情况下流.
如果它花了很长的时间并且完成了,至少你有一个模型。我们只是想要一些不会失败的东西..。目前唯一的答案是尝试一个更小的数据集..。每一次训练都是浪费时间和金钱。
我们在这方面相对较新,因此任何帮助都是非常感谢的。如果你需要更多的细节,请告诉我你需要什么。
耽误您时间,实在对不起。
更新:
因此,我们将java选项-Xmx设置为14g,并将其增加到25g,这使其得以继续。
发布于 2018-10-31 13:52:19
我推荐数据集大小的4-5倍。所以至少64 gb。
https://stackoverflow.com/questions/53081964
复制相似问题