在使用autoML生成aml排行榜之后,我运行
h2o.predict(aml@leader, test_df) 但是我怎么知道它在排行榜上使用的是哪种型号呢?如果我想在leaderboard上访问任何模型的结构或超参数,我该怎么做呢?
此外,测试集上的结果远不如验证集上的结果好,这是否很常见-是我使用错误了还是有过度拟合的趋势?
也想更好地了解它的基础设施,在h2o.init之后,数据是传输到h2o.ai集群中的服务器,还是一切都发生在我本地的笔记本电脑上?
谢谢。
发布于 2017-08-15 03:12:14
它使用"leader“模型,这是排行榜上的#1模型,按照ML任务的默认度量(二进制分类、多类分类、回归)进行排名。领导者模型ID在这里:aml@leader@model_id。
存储在aml@leader中的领导者模型只是一个常规的H2O模型,因此,如果您想查看所使用的参数,请查看您设置的参数的aml@leader@parameters,或查看所有参数值(包括未手动设置的参数值)的aml@leader@allparameters。
validation_frame用于通过提前停止来调整各个模型,因此与测试误差相比,验证误差总是过于乐观,这将是泛化误差的良好估计。
第三个问题超出了这篇文章的范围,但我还是会回答它。当您使用H2O并使用h2o.init()启动集群时,您将在笔记本电脑上本地运行所有内容。如果您在其他地方启动H2O集群,例如亚马逊EC2或您自己的远程服务器,您可以使用ip参数将该服务器的IP地址传递给h2o.init()命令以连接到它,计算将在该远程计算机上运行。无论哪种方式,服务器都完全在您的控制之下--没有H2O.ai拥有的执行远程处理的"H2O云“。
https://stackoverflow.com/questions/45678743
复制相似问题