我有一个有10个特征的数据集。
我注意到,当我从排列重要性中得到的特征的重要性顺序与我使用平均CV分数对它们进行排序时,当我一次只用一个特征来拟合模型时,有一个特征的排列重要性等级位于最底层,而当模型单独使用时,它的平均CV分数是第二个。
假设从1开始,这些特性的顺序是feature2、feature4、feature5、feature1、feature9、feature8、feature7、feature10、feature3、feature6。当一次使用一个特征并计算平均cv分数时,我注意到特征3的平均cv分数是第二好的,尽管重要的特征是暗示它是一个弱的特征。
如果有人能帮助我理解如何解释这一点,以及哪种方法似乎更值得信赖,我将不胜感激。
谢谢。
发布于 2019-09-08 20:56:17
让我们先看看排列重要性的算法是如何工作的。根据文件:
为了避免重新训练估计器,我们只能从数据集的测试部分删除一个特征,并且不使用这个特征来计算分数。它不能按原样工作,因为估计器预期特性会出现。因此,我们可以用随机噪声替换它,而不是删除它-- feature仍然存在,但是它不再包含有用的信息。如果噪声来自与原始特征值相同的分布(否则估计器可能失败),则此方法有效。获得这种噪声的最简单的方法是对一个特征的值进行洗牌,即使用其他示例的特征值--这是计算置换重要性的方法。
现在,您的问题的答案是,虽然特性3提供了重要的信息(cv在场景2中得分次之),但是还可以使用其余的9个功能相结合来捕获这些信息(因此在场景1中是无用的)。当使用多个特性时,如果模型获得了其他特性无法提供的任何新见解,则特性是非常重要的。
您可以从ELI5 5置换重要性的“算法”部分解释这一点。
https://datascience.stackexchange.com/questions/58784
复制相似问题