首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R: boosted回归树如何处理丢失的数据?

R: boosted回归树如何处理丢失的数据?
EN

Stack Overflow用户
提问于 2013-09-06 20:20:07
回答 1查看 4.7K关注 0票数 7

默认情况下,增强回归树(包gbm)的R实现如何处理预测变量的缺失值?它们被归罪了吗?如果是,根据哪种算法?

我的问题背景:我几乎在一年前做了分析,我使用了Elith等人提供的脚本。2008 (增强回归树工作指南,Journal of Animal Ecology 77,802-813)以调用gbm。我现在意识到我有一些预测变量的NAs,我想知道增强的回归树是如何处理它们的。浏览各种手册和论文,我发现像“增强回归树可以容纳缺失值”之类的语句,但我找不到gbm对缺失值所做的准确描述。分析本身没有问题,所以gbm肯定以一种或另一种方式处理它们。在gbm手册中甚至有一个例子,其中故意引入了NAs,以证明gbm继续工作而没有问题。现在我想知道gbm对NAs到底做了什么(跳过它们,归因于它们,...?)。

EN

回答 1

Stack Overflow用户

发布于 2013-09-06 22:55:57

gbm函数可用于填充as described in Jeffrey Wongs blog:。缺少的值会得到代理拆分,然后用户可以获得具有不完整预测集的iems的预测。

他已经开发了一个基于这种方法的包。GitHub存储库在gbm的其中一个文件的头中包含以下内容:

代码语言:javascript
复制
#' GBM Imputation
#'
#' Imputation using Boosted Trees
#' Fill each column by treating it as a regression problem. For each
#' column i, use boosted regression trees to predict i using all other
#' columns except i. If the predictor variables also contain missing data,
#' the gbm function will itself use surrogate variables as substitutes for the predictors.
#' This imputation function can handle both categorical and numeric data.

为了找到这一点,我只需在Google搜索中键入以下内容: gbm如何处理缺失值。这对我来说是第二次大热。

https://github.com/jeffwong/imputation/blob/master/R/gbmImpute.R

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18657754

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档