首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在进行回归分析时,如何评估随机森林的模型和预测?

在进行回归分析时,如何评估随机森林的模型和预测?
EN

Stack Overflow用户
提问于 2020-08-13 09:35:53
回答 1查看 609关注 0票数 0

我知道当使用随机森林(RF)进行分类时,通常使用AUC来评估分类的质量,并将其应用于数据测试。然而,我不知道用RF来评估回归质量的参数。现在,我想使用RF进行回归分析,例如使用数百个样本和特征的指标来预测化学品的浓度(数值)。

  1. 第一步是运行randomForest来建立回归模型,并以y作为连续的数字。基于残差平方和% Var解释的均数,我怎么知道模型是否好?有时我的% Var解释为阴性。
  2. 然后,如果模型很好并且/或直接用于测试数据,那么我将得到预测的值。现在,我如何评估预测值的好坏?我在网上读了一些计算的准确性(公式:1-abs(预测-实际)/actual),这对我来说也是有意义的。但是,我的实际数据集中有许多零值,是否有其他解决方案来评估预测值的准确性?

期待能提前收到任何建议和感谢。

EN

回答 1

Stack Overflow用户

发布于 2020-08-13 09:48:12

randomForest R软件包附带了一个importance函数,可以用来确定模型的准确性。来自文档

重要(x,type=NULL,class=NULL,scale=TRUE,.),其中x是您对randomForest的初始调用的输出。

有两种类型的重要性度量。一种是利用包外数据的置换来检验模型的准确性。另一个使用基尼指数。同样,从文件中:

以下是可变重要性度量的定义。第一种度量是从排列OOB数据中计算出来的:对于每一棵树,记录了数据的出出部分的预测误差(分类的错误率,回归的MSE )。然后,在对每个预测变量进行置换之后,也会进行同样的操作。然后,将两者之间的差异平均在所有树上,并通过差异的标准差进行归一化处理。如果变量的差值标准差等于0,则不会进行除法(但在这种情况下,平均值几乎总是等于0)。第二种方法是从变量上分裂出的节点杂质总量减少,平均分布在所有的树上。分类时,用Gini指数测量节点杂质。对于回归,它是由残差和的平方。

要了解更多信息,一个更简单的重要检查就是使用所谓的最佳常量模型,这实际上更像是一种理智检查。最佳常数模型有一个常数输出,这是测试数据集中所有响应的平均值。最好的常数模型可以假定为最粗糙的模型。对于给定的测试数据集,您可以将随机森林模型的平均性能与最佳常量模型进行比较。如果后者的表现不超过前者的至少一个因素,比如说3-5,那么你的RF模型就不是很好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63392252

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档