问在进行回归分析时，如何评估随机森林的模型和预测？
EN

Stack Overflow用户

提问于 2020-08-13 09:35:53

回答 1查看 609关注 0票数 0

我知道当使用随机森林(RF)进行分类时，通常使用AUC来评估分类的质量，并将其应用于数据测试。然而，我不知道用RF来评估回归质量的参数。现在，我想使用RF进行回归分析，例如使用数百个样本和特征的指标来预测化学品的浓度(数值)。

第一步是运行randomForest来建立回归模型，并以y作为连续的数字。基于残差平方和% Var解释的均数，我怎么知道模型是否好？有时我的% Var解释为阴性。
然后，如果模型很好并且/或直接用于测试数据，那么我将得到预测的值。现在，我如何评估预测值的好坏？我在网上读了一些计算的准确性(公式:1-abs(预测-实际)/actual)，这对我来说也是有意义的。但是，我的实际数据集中有许多零值，是否有其他解决方案来评估预测值的准确性？

期待能提前收到任何建议和感谢。

random-forest

回答 1

Stack Overflow用户

发布于 2020-08-13 09:48:12

randomForest R软件包附带了一个importance函数，可以用来确定模型的准确性。来自文档

重要(x，type=NULL，class=NULL，scale=TRUE，.)，其中x是您对randomForest的初始调用的输出。

有两种类型的重要性度量。一种是利用包外数据的置换来检验模型的准确性。另一个使用基尼指数。同样，从文件中：

以下是可变重要性度量的定义。第一种度量是从排列OOB数据中计算出来的:对于每一棵树，记录了数据的出出部分的预测误差(分类的错误率，回归的MSE )。然后，在对每个预测变量进行置换之后，也会进行同样的操作。然后，将两者之间的差异平均在所有树上，并通过差异的标准差进行归一化处理。如果变量的差值标准差等于0，则不会进行除法(但在这种情况下，平均值几乎总是等于0)。第二种方法是从变量上分裂出的节点杂质总量减少，平均分布在所有的树上。分类时，用Gini指数测量节点杂质。对于回归，它是由残差和的平方。

要了解更多信息，一个更简单的重要检查就是使用所谓的最佳常量模型，这实际上更像是一种理智检查。最佳常数模型有一个常数输出，这是测试数据集中所有响应的平均值。最好的常数模型可以假定为最粗糙的模型。对于给定的测试数据集，您可以将随机森林模型的平均性能与最佳常量模型进行比较。如果后者的表现不超过前者的至少一个因素，比如说3-5，那么你的RF模型就不是很好。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63392252

复制

相似问题

问在进行回归分析时，如何评估随机森林的模型和预测？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在进行回归分析时，如何评估随机森林的模型和预测？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在进行回归分析时，如何评估随机森林的模型和预测？
EN