问置换特征重要性与RandomForest特征重要性
EN

Data Science用户

提问于 2019-11-11 22:45:16

回答 1查看 4.1K关注 0票数 0

排列特征重要性与RandomForest特性重要性之间有什么区别？这两种技术的缺点和优点是什么？

scikit-learn

random-forest

回答 1

Data Science用户

发布于 2019-11-12 00:33:46

森林：

林纸“我们证明，在许多应用中，随机森林变量重要性度量是一种合理的变量选择方法，但在潜在预测变量的测量尺度或类别数目不同的情况下，则不可靠。

这就是说，如果一个特性在其基于类的检测能力上存在差异，那么它将是错误的。这似乎意味着该方法对数据异常很敏感，比如一个特征，如果90%负责5%变量的分类，那么它可能是最重要的特征，尽管这可能并不准确。

排列：

Scikit-学习“置换特征重要性”是一种模型检验技术，当数据为矩形时，它可用于任何拟合估计器。这对于非线性或不透明估计特别有用。置换特征重要性被定义为当单个特征值被随机洗牌1时，模型分数的减少。这个过程打破了特征与目标之间的关系，因此模型分数的下降指示了模型对特征的依赖程度。这种技术的好处在于模型不可知论，并且可以用特征的不同排列多次计算。

数据是矩形的，这意味着它是一个多元特征数组表。该模型在非线性场景中工作，这意味着即使输出遵循像XOR这样的非线性函数，它也能够在预测方面有好处。

排列特性重要性的一些缺点可以找到这里 --这是一个很好的资源，来自克里斯托夫莫尔纳的“可解释机器学习！

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/63024

复制

相似问题

问置换特征重要性与RandomForest特征重要性
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问置换特征重要性与RandomForest特征重要性EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问置换特征重要性与RandomForest特征重要性
EN