文章/答案/技术大牛

发布

社区首页 >问答首页 >特征重要性

问特征重要性
EN

Data Science用户

提问于 2019-09-06 11:36:27

回答 1查看 331关注 0票数 3

我有一个有10个特征的数据集。

我已经使用排列重要性和eli5交叉验证计算了特征的重要性，在拟合了一个非常随机的树(ET)分类器后，由Scikit学习。
我每次只使用一个特征来拟合10个不同的ETs，并使用相同的CV方案计算出平均交叉验证分数。

我注意到，当我从排列重要性中得到的特征的重要性顺序与我使用平均CV分数对它们进行排序时，当我一次只用一个特征来拟合模型时，有一个特征的排列重要性等级位于最底层，而当模型单独使用时，它的平均CV分数是第二个。

假设从1开始，这些特性的顺序是feature2、feature4、feature5、feature1、feature9、feature8、feature7、feature10、feature3、feature6。当一次使用一个特征并计算平均cv分数时，我注意到特征3的平均cv分数是第二好的，尽管重要的特征是暗示它是一个弱的特征。

如果有人能帮助我理解如何解释这一点，以及哪种方法似乎更值得信赖，我将不胜感激。

谢谢。

machine-learning

classification

feature-selection

random-forest

predictor-importance

回答 1

Data Science用户

回答已采纳

发布于 2019-09-08 20:56:17

让我们先看看排列重要性的算法是如何工作的。根据文件：

为了避免重新训练估计器，我们只能从数据集的测试部分删除一个特征，并且不使用这个特征来计算分数。它不能按原样工作，因为估计器预期特性会出现。因此，我们可以用随机噪声替换它，而不是删除它-- feature仍然存在，但是它不再包含有用的信息。如果噪声来自与原始特征值相同的分布(否则估计器可能失败)，则此方法有效。获得这种噪声的最简单的方法是对一个特征的值进行洗牌，即使用其他示例的特征值--这是计算置换重要性的方法。

现在，您的问题的答案是，虽然特性3提供了重要的信息(cv在场景2中得分次之)，但是还可以使用其余的9个功能相结合来捕获这些信息(因此在场景1中是无用的)。当使用多个特性时，如果模型获得了其他特性无法提供的任何新见解，则特性是非常重要的。

您可以从ELI5 5置换重要性的“算法”部分解释这一点。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/58784

复制

相似问题

问特征重要性
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特征重要性EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问特征重要性
EN