首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >随机森林生存分析崩溃

随机森林生存分析崩溃
EN

Stack Overflow用户
提问于 2018-11-29 00:37:24
回答 2查看 661关注 0票数 2

我正在尝试对6500条记录的数据帧运行RFSRC,其中包含59个变量:

代码语言:javascript
复制
rfsrc_test <- rfsrc(Surv(TIME, DIED) ~ ., data=test, nsplit=10, na.action = "na.impute")

当我在1500条记录上运行它时,它似乎可以工作,但在整个数据集上崩溃。

它在没有任何特定错误的情况下崩溃了--有时它会给出“异常处理错误”。

你有什么想法怎么调试这个吗?我在数据库中浏览了一下奇怪的行,但一无所获。

EN

回答 2

Stack Overflow用户

发布于 2018-11-29 01:17:04

我们不知道每条记录的大小,也不知道变量的复杂性。

当我遇到RAM开销时,我也遇到过类似的情况。R不是为海量数据集设计的。并行处理可以解决这个问题,但是R不是为此而设计的,下一个建议是购买更多的RAM。

我的方法是减少变量的数量,直到您可以处理6500条记录(确保它只是数据集大小)。然后,我会预先筛选每个变量的适合度,例如GLM,并使用能够解释大量数据并最小化残差的变量。然后,我会在减少的变量上重新运行生存分析。

票数 0
EN

Stack Overflow用户

发布于 2018-11-30 00:32:27

您可以检查的一件事是时间变量-存在多少不同的值?生存森林将为每个节点保存累积风险函数。如果数据集中的唯一时间点的数量大于CHFS,那么CHFS也会变大。我不得不舍入我的时间变量,这大大减少了运行时间。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53524163

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档