首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >置换特征重要性与RandomForest特征重要性

置换特征重要性与RandomForest特征重要性
EN

Data Science用户
提问于 2019-11-11 22:45:16
回答 1查看 4.1K关注 0票数 0

排列特征重要性与RandomForest特性重要性之间有什么区别?这两种技术的缺点和优点是什么?

EN

回答 1

Data Science用户

发布于 2019-11-12 00:33:46

森林:

林纸“我们证明,在许多应用中,随机森林变量重要性度量是一种合理的变量选择方法,但在潜在预测变量的测量尺度或类别数目不同的情况下,则不可靠。

这就是说,如果一个特性在其基于类的检测能力上存在差异,那么它将是错误的。这似乎意味着该方法对数据异常很敏感,比如一个特征,如果90%负责5%变量的分类,那么它可能是最重要的特征,尽管这可能并不准确。

排列:

Scikit-学习“置换特征重要性”是一种模型检验技术,当数据为矩形时,它可用于任何拟合估计器。这对于非线性或不透明估计特别有用。置换特征重要性被定义为当单个特征值被随机洗牌1时,模型分数的减少。这个过程打破了特征与目标之间的关系,因此模型分数的下降指示了模型对特征的依赖程度。这种技术的好处在于模型不可知论,并且可以用特征的不同排列多次计算。

数据是矩形的,这意味着它是一个多元特征数组表。该模型在非线性场景中工作,这意味着即使输出遵循像XOR这样的非线性函数,它也能够在预测方面有好处。

排列特性重要性的一些缺点可以找到这里 --这是一个很好的资源,来自克里斯托夫莫尔纳的“可解释机器学习!

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/63024

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档