我知道当使用随机森林(RF)进行分类时,通常使用AUC来评估分类的质量,并将其应用于数据测试。然而,我不知道用RF来评估回归质量的参数。现在,我想使用RF进行回归分析,例如使用数百个样本和特征的指标来预测化学品的浓度(数值)。
期待能提前收到任何建议和感谢。
发布于 2020-08-13 09:48:12
randomForest R软件包附带了一个importance函数,可以用来确定模型的准确性。来自文档
重要(x,type=NULL,class=NULL,scale=TRUE,.),其中
x是您对randomForest的初始调用的输出。
有两种类型的重要性度量。一种是利用包外数据的置换来检验模型的准确性。另一个使用基尼指数。同样,从文件中:
以下是可变重要性度量的定义。第一种度量是从排列OOB数据中计算出来的:对于每一棵树,记录了数据的出出部分的预测误差(分类的错误率,回归的MSE )。然后,在对每个预测变量进行置换之后,也会进行同样的操作。然后,将两者之间的差异平均在所有树上,并通过差异的标准差进行归一化处理。如果变量的差值标准差等于0,则不会进行除法(但在这种情况下,平均值几乎总是等于0)。第二种方法是从变量上分裂出的节点杂质总量减少,平均分布在所有的树上。分类时,用Gini指数测量节点杂质。对于回归,它是由残差和的平方。
要了解更多信息,一个更简单的重要检查就是使用所谓的最佳常量模型,这实际上更像是一种理智检查。最佳常数模型有一个常数输出,这是测试数据集中所有响应的平均值。最好的常数模型可以假定为最粗糙的模型。对于给定的测试数据集,您可以将随机森林模型的平均性能与最佳常量模型进行比较。如果后者的表现不超过前者的至少一个因素,比如说3-5,那么你的RF模型就不是很好。
https://stackoverflow.com/questions/63392252
复制相似问题