首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特征重要性

特征重要性
EN

Data Science用户
提问于 2019-09-06 11:36:27
回答 1查看 331关注 0票数 3

我有一个有10个特征的数据集。

  1. 我已经使用排列重要性和eli5交叉验证计算了特征的重要性,在拟合了一个非常随机的树(ET)分类器后,由Scikit学习。
  2. 我每次只使用一个特征来拟合10个不同的ETs,并使用相同的CV方案计算出平均交叉验证分数。

我注意到,当我从排列重要性中得到的特征的重要性顺序与我使用平均CV分数对它们进行排序时,当我一次只用一个特征来拟合模型时,有一个特征的排列重要性等级位于最底层,而当模型单独使用时,它的平均CV分数是第二个。

假设从1开始,这些特性的顺序是feature2、feature4、feature5、feature1、feature9、feature8、feature7、feature10、feature3、feature6。当一次使用一个特征并计算平均cv分数时,我注意到特征3的平均cv分数是第二好的,尽管重要的特征是暗示它是一个弱的特征。

如果有人能帮助我理解如何解释这一点,以及哪种方法似乎更值得信赖,我将不胜感激。

谢谢。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-09-08 20:56:17

让我们先看看排列重要性的算法是如何工作的。根据文件:

为了避免重新训练估计器,我们只能从数据集的测试部分删除一个特征,并且不使用这个特征来计算分数。它不能按原样工作,因为估计器预期特性会出现。因此,我们可以用随机噪声替换它,而不是删除它-- feature仍然存在,但是它不再包含有用的信息。如果噪声来自与原始特征值相同的分布(否则估计器可能失败),则此方法有效。获得这种噪声的最简单的方法是对一个特征的值进行洗牌,即使用其他示例的特征值--这是计算置换重要性的方法。

现在,您的问题的答案是,虽然特性3提供了重要的信息(cv在场景2中得分次之),但是还可以使用其余的9个功能相结合来捕获这些信息(因此在场景1中是无用的)。当使用多个特性时,如果模型获得了其他特性无法提供的任何新见解,则特性是非常重要的。

您可以从ELI5 5置换重要性的“算法”部分解释这一点。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/58784

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档