首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >高相关数据上的随机森林

高相关数据上的随机森林
EN

Data Science用户
提问于 2023-03-09 23:47:18
回答 1查看 44关注 0票数 1

我在数据科学领域相对较新。我开始篡改随机森林模型和一些奇怪的场合引起。准确地说,我有记录污染物的传感器的数据,还有一个列,它作为标签填充数据,显示一个人是否有过敏症,或者没有用0或1来描述。数据的数量是1300人。因此,我运行了一些随机森林分类器模型,并开始删除或添加一些列。我不明白的是: 1.在一个以所有污染物为特征的模型中,去除一个随机柱(如苯乙烯)时,该柱作为标签,特征重要性的顺序发生显著变化;2.在一个以所有污染物为特征,当我移除大量的污染物或甚至只让一列污染物作为标签的模型中,准确度保持不变(约71%);最后,当我添加AA (增加序列号)数据时,随着SBR柱的加入,准确度提高了。你能从这些结果中了解到什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2023-03-10 13:47:49

欢迎来到数据科学部门。你的三点似乎与不同的方面有关。我将努力解决这三方面的问题:

1.特性重要性

为了解释这种效果,我会从另一个角度出发,从一个模型开始,它训练了几个主要是不相关的特性(只是为了解释)。

我们的一个特性将获得最高的特性重要性(让我们称之为A)。为了简化事情,这大致意味着这个特性在我们随机森林中的许多树的许多重要节点中使用。

现在假设我们添加了与特征A密切相关的另一个特征(B),如果我们现在训练另一个随机森林,那么无论在节点中使用特征A还是特征B,都有很大的不同。因此,大约一半的时间A被使用,一半的时间B被使用。这意味着,与第一个模型相比,A只出现在一半的节点中。这将给它之前获得的特性的一半重要性(同样,我们简化了事情)。根据特性重要性的定义,效果可能不同,但一般概念保持不变)

按照上面的解释,您可以看到,删除某些特性将对其他特性的重要性产生不同的影响,这取决于它们与已删除的特性之间的关联程度。这可能已经解释了你的观察。

结论:特征重要性仅衡量一个具体模型的重要性。而不是功能背后的信息的价值。

2.精度

看起来你有某种不平衡的数据。我建议在症状中寻找数值发生的频率。我假设只有两个值0和1,所有值的71%被标记为1。在这种情况下,一个总是说1的模型将获得71%的准确性。因此,在这种情况下,如果你的模型不会李尔太多,所有的都将获得71%的准确性。

在这种植入数据的情况下,人们会更好地利用各种指标来评估模型,比如rate、精确性和召回率(两者兼而有之)、真假阳性率。

3.添加AA列

你的数据中似乎有一种趋势。如果ID列是一个有价值的信息,那么数据可能会以某种方式进行排序。如果您不确定数据是如何排序的,最好忽略ID并对数据进行洗牌。否则,您需要分析数据以理解排序。

注意:在scikit中,您需要显式设置交叉验证的shuffle=True (参见https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)。

我希望这能帮助你了解一下你的模特们到底是怎么回事。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120087

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档