我正在使用H2O.AI h2o.automl函数来执行一个标准的二进制分类问题。我使用的是CRAN上发布的最新包版本。我运行了以下代码:
my_automl_model<-h2o.automl(x=predictorsList, y="Purchase", training_frame = train.h2o, validation_frame = test.h2o, stopping_metric = "logloss", max_runtime_secs = 60*60*3).为购买两级因素("N","S"),预测因子列表为predictorsList。
快速呼叫的日志如下:
model_id auc logloss
1 GLM_grid_0_AutoML_20171012_150410_model_1 NaN NaN
2 GLM_grid_0_AutoML_20171012_150410_model_0 NaN NaN
3 DeepLearning_0_AutoML_20171012_145911 NaN NaN
4 StackedEnsemble_0_AutoML_20171012_145911 NaN NaN
5 GLM_grid_0_AutoML_20171012_145911_model_1 NaN NaN
6 GLM_grid_0_AutoML_20171012_145911_model_0 NaN NaN我知道包对模型进行了排名,但我想知道为什么没有显示性能指标……
我还想了解: 1. XRT_xxx模型代表什么? 2.是否有任何方法来指定n-折叠式交叉验证。
提前感谢您的支持
发布于 2017-10-13 00:01:06
现在,我将在最后解决这两个问题,并更新我的答案,如果您可以提供一个公共数据集来复制排行榜问题中的NA。
XRT =使用极端随机化树的随机森林(也称为ExtraTrees)。这是通过设置histogram_type = "Random"实现的。
如果有任何方法可以指定n折交叉验证,请执行
现在,您可以使用fold_column指定自定义折叠,因此您可以通过这种方式更改折叠的数量。这应该是一列指定折叠的整数或因子,因此创建它的最简单方法如下(R示例):
# train should be your training_frame; we will use iris as an example
data("iris")
train <- as.h2o(iris)
# add a fold column that uses 10 folds
train[,"fold"] <- as.h2o(rep_len(1:10, nrow(train)))然后在h2o.automl()中设置fold_column = "fold"。
在下一个版本中,我们将直接公开nfolds参数以简化此操作(请关注此任务here的进度)。
https://stackoverflow.com/questions/46713688
复制相似问题