排列特征重要性与RandomForest特性重要性之间有什么区别?这两种技术的缺点和优点是什么?
发布于 2019-11-12 00:33:46
森林:
林纸“我们证明,在许多应用中,随机森林变量重要性度量是一种合理的变量选择方法,但在潜在预测变量的测量尺度或类别数目不同的情况下,则不可靠。
这就是说,如果一个特性在其基于类的检测能力上存在差异,那么它将是错误的。这似乎意味着该方法对数据异常很敏感,比如一个特征,如果90%负责5%变量的分类,那么它可能是最重要的特征,尽管这可能并不准确。
排列:
Scikit-学习“置换特征重要性”是一种模型检验技术,当数据为矩形时,它可用于任何拟合估计器。这对于非线性或不透明估计特别有用。置换特征重要性被定义为当单个特征值被随机洗牌1时,模型分数的减少。这个过程打破了特征与目标之间的关系,因此模型分数的下降指示了模型对特征的依赖程度。这种技术的好处在于模型不可知论,并且可以用特征的不同排列多次计算。
数据是矩形的,这意味着它是一个多元特征数组表。该模型在非线性场景中工作,这意味着即使输出遵循像XOR这样的非线性函数,它也能够在预测方面有好处。
排列特性重要性的一些缺点可以找到这里 --这是一个很好的资源,来自克里斯托夫莫尔纳的“可解释机器学习!
https://datascience.stackexchange.com/questions/63024
复制相似问题