文章/答案/技术大牛

发布

社区首页 >问答首页 >R:如何在SuperLearner中指定我自己的简历折叠

问R:如何在SuperLearner中指定我自己的简历折叠
EN

Stack Overflow用户

提问于 2020-06-23 12:13:29

回答 2查看 118关注 0票数 2

library(SuperLearner)
library(MASS)
set.seed(23432)
## training set
n <- 500
p <- 50
X <- matrix(rnorm(n*p), nrow = n, ncol = p)
colnames(X) <- paste("X", 1:p, sep="")
X <- data.frame(X)
Y <- X[, 1] + sqrt(abs(X[, 2] * X[, 3])) + X[, 2] - X[, 3] + rnorm(n)


sl_cv = SuperLearner(Y = Y, X = X, family = gaussian(),
                  SL.library = c("SL.mean", "SL.ranger"),
                  verbose = TRUE, cvControl = list(V = 5))

在上面的代码中，我执行了一个5折的CV来训练一个SuperLearner。但是，如果我想在数据中手动创建自己的折叠，该怎么办？我对此很感兴趣，因为我知道我的数据中有簇，并且我想在我创建的折叠上执行CV。

例如，下面是我的玩具数据的五个文件夹：split1，...，split5。有没有办法使用这5个折叠来执行交叉验证，而不是让SuperLearner自己拆分数据？

set.seed(1)
index <- sample(1:5, size = nrow(X), replace = TRUE, prob = c(0.2, 0.2, 0.2, 0.2, 0.2)) 
split1 <- X[index == 1, ]
split2 <- X[index == 2, ]
split3 <- X[index == 3, ]
split4 <- X[index == 4, ]
split5 <- X[index == 5, ]
split1.y <- Y[index == 1]
split2.y <- Y[index == 2]
split3.y <- Y[index == 3]
split4.y <- Y[index == 4]
split5.y <- Y[index == 5]

superlearner

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-07-02 02:26:05

重复准备数据，就有了完整的解决方案。最后一行验证训练数据是否排除了验证数据。

library(SuperLearner)
library(MASS)
set.seed(23432)
## training set
n <- 500
p <- 50
X <- matrix(rnorm(n*p), nrow = n, ncol = p)
colnames(X) <- paste("X", 1:p, sep="")
X <- data.frame(X)
Y <- X[, 1] + sqrt(abs(X[, 2] * X[, 3])) + X[, 2] - X[, 3] + rnorm(n)

set.seed(1)
index <- sample(1:5, size = nrow(X), replace = TRUE, prob = c(0.2, 0.2, 0.2, 0.2, 0.2)) 

validRows=list()
for (v in 1:5)
  validRows[[v]] <- which(index==v)

sl_cv = SuperLearner(Y = Y, X = X, family = gaussian(),
                     SL.library = c("SL.mean", "SL.ranger"),
                     verbose = TRUE,
                     control = SuperLearner.control(saveCVFitLibrary = TRUE),
                     cvControl = list(V = 5, shuffle = FALSE, validRows = validRows))

# sample size deducted from length of declared validRows
n - sapply(sl_cv$validRows, length)

# sample size deducted from resulting models
sapply(1:5, function(i) length(sl_cv$cvFitLibrary[[i]]$SL.ranger_All$object$predictions))

票数 0

Stack Overflow用户

发布于 2020-07-01 19:15:21

交叉验证过程有一些控制参数。您可以使用validRows参数。您将需要一个包含5个元素的列表，每个元素都具有与您预定义的集群相对应的所有行的向量。假设您添加了一个列，该列显示了一个观察值所属的集群，您可以这样写：

cluster1_ids = which(df$cluster==1) #similar for other cluster values
L = list(cluster1_ids, cluster2_ids, cluster3_ids, cluster4_ids, cluster5_ids)
X = df[-c("cluster")]
sl_cv = SuperLearner(Y = Y, X = X, family = gaussian(),
              SL.library = c("SL.mean", "SL.ranger"),
              verbose = TRUE, cvControl = list(V = 5, validRows=L))

希望这能有所帮助！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62527215

复制

相似问题

问R:如何在SuperLearner中指定我自己的简历折叠
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R:如何在SuperLearner中指定我自己的简历折叠EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R:如何在SuperLearner中指定我自己的简历折叠
EN