默认情况下,增强回归树(包gbm)的R实现如何处理预测变量的缺失值?它们被归罪了吗?如果是,根据哪种算法?
我的问题背景:我几乎在一年前做了分析,我使用了Elith等人提供的脚本。2008 (增强回归树工作指南,Journal of Animal Ecology 77,802-813)以调用gbm。我现在意识到我有一些预测变量的NAs,我想知道增强的回归树是如何处理它们的。浏览各种手册和论文,我发现像“增强回归树可以容纳缺失值”之类的语句,但我找不到gbm对缺失值所做的准确描述。分析本身没有问题,所以gbm肯定以一种或另一种方式处理它们。在gbm手册中甚至有一个例子,其中故意引入了NAs,以证明gbm继续工作而没有问题。现在我想知道gbm对NAs到底做了什么(跳过它们,归因于它们,...?)。
发布于 2013-09-06 22:55:57
gbm函数可用于填充as described in Jeffrey Wongs blog:。缺少的值会得到代理拆分,然后用户可以获得具有不完整预测集的iems的预测。
他已经开发了一个基于这种方法的包。GitHub存储库在gbm的其中一个文件的头中包含以下内容:
#' GBM Imputation
#'
#' Imputation using Boosted Trees
#' Fill each column by treating it as a regression problem. For each
#' column i, use boosted regression trees to predict i using all other
#' columns except i. If the predictor variables also contain missing data,
#' the gbm function will itself use surrogate variables as substitutes for the predictors.
#' This imputation function can handle both categorical and numeric data.为了找到这一点,我只需在Google搜索中键入以下内容: gbm如何处理缺失值。这对我来说是第二次大热。
https://github.com/jeffwong/imputation/blob/master/R/gbmImpute.R
https://stackoverflow.com/questions/18657754
复制相似问题