我已经将回归树与我的数据集相匹配,来自summary(tree1)的输出如下:
Regression tree:
tree(formula = y ~ X)
Variables actually used in tree construction:
character(0)
Number of terminal nodes: 1
Residual mean deviance: 0.985 = 71680 / 72770
Distribution of residuals:
Min. 1st Qu. Median Mean 3rd Qu. Max.
-1.0050 -1.0050 -0.3122 0.0000 0.7842 2.2140 因此,这棵树似乎没有发现任何值得包含的变量/分裂。之所以令人好奇,是因为其他方法已经在数据中找到了趋势。例如,一条线性回归线发现,F-统计量的p值为0(尽管这是一个基于人类行为的非常嘈杂的数据集,而R-平方并不比0大得多)。
如何解释这个回归树输出?数据集中有明显的趋势,如线性回归所示。回归树是否更专注于精确的预测,因此不适合于嘈杂的数据集?
发布于 2019-08-01 17:07:14
在不了解数据和实际方法/方法/模型/代码的情况下,很难知道发生了什么。
只是说说而已。线性回归是参数化的,结果取决于参数化背后的假设。所以在嘈杂的环境下可能不太好。
单株树往往是弱学习者。然而,树木的优点是,没有参数化的背后。因此,它们在原则上是相当灵活的。将多棵树组合成一个整体(随机森林)是最先进的。
尤其是有噪声的数据,提升(也是基于树的)真的很好。Boosting会产生很多非常小的树,并且(通过将权重更新到特定的观测),它将重点放在难以预测的情况上。我想,如果你使用预测建模的话,这将是一件值得尝试的事情。
下面是一些非常基本的Python示例,如果您想尝试一下的话,可以使用这些例子:https://github.com/Bixi81/Python-ml
https://datascience.stackexchange.com/questions/56752
复制相似问题