我想使用随机生存森林来预测每个病人的累积危险,并通过选择最小累积危险的治疗方案来预测治疗。我想我已经接近了,但我不知道我从randomForestSRC包中的一个输出中得到了什么。
我使用的数据是GBSG2乳腺癌数据。患者要么接受激素治疗,要么不接受激素治疗。
这是到目前为止我的代码
#load data
library(TH.data)
data(GBSG2)
#test and train
smp_size <- floor(0.75 * nrow(GBSG2))
set.seed(123)
train_ind <- sample(seq_len(nrow(GBSG2)), size = smp_size)
train <- GBSG2[train_ind, ]
test <- GBSG2[-train_ind, ]
#rsf fit
library(randomForestSRC)
rf.fit <- rfsrc(formula = Surv(time,cens)~., ntree = 100,
data=train)
#rsf predict
rf.pred <- predict(rf.fit, test)
#rsf cumulative hazard
rf.pred$chf

我对产出感到有点困惑。我认为,对于每一个病人,我对治疗和不治疗都有一个累积的危险。我不知道为什么我对每个病人都有四个价值观。
发布于 2017-04-10 15:10:33
rf.pred$chf的维数为rf.pred$n x rf.pred$time.interest。有关终端节点统计数据和组件的信息,请参阅我们的GitHub页面的理论和规范部分:
https://stackoverflow.com/questions/43161222
复制相似问题