首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特征选择对决策树算法有影响吗?

特征选择对决策树算法有影响吗?
EN

Data Science用户
提问于 2019-05-08 13:17:04
回答 2查看 11.3K关注 0票数 9

背景:目前,我正在从事我的论文项目,即建立基于树的集成方法,用于在一个大数据集上进行分类。在我开始建模之前,我花了大量的时间在特征选择上,使用基于相关性的标准来选择一个特征子集,这样这些选择的特征与响应变量有很高的相关性,并且彼此之间的相关性很低。

然而,我的一位主管问我为什么花那么多时间在特征选择上,正如他提到的,决策树算法可以自然地选择哪些特征是最重要的。后来,我查阅了Tan (2014)的“数据挖掘入门”一书,书中明确指出,“特征选择是数据挖掘算法的一部分,例如决策树分类器”。我对在功能选择上花费时间感到有点沮丧。当我最终运行有和没有特征选择的模型时,它不会显示出结果之间的任何显著差异。

我的问题是:特征选择对决策树算法有任何影响吗?

EN

回答 2

Data Science用户

发布于 2019-05-09 01:39:22

对于决策树的集合,特征选择通常不那么重要。在决策树的归纳过程中,选择最优的特征来根据信息增益等指标来分割数据,所以如果你有一些信息不丰富的特征,它们就不会被选择。

对于小数据集来说,特征选择仍然是很重要的,因为在这些数据集中,特征和类标签之间的虚假关系更常见。

顺便提一句:通常的做法是从所有学习算法的数据集中删除一些特性,比如ID字段。这些特性对决策树尤其不利,因为它们通常是信息增益最高的特性(因此被选择为可拆分的),而实际上不包含可通用的信息。因此,在使用决策树时,特征选择是有用的,尽管ID字段应该首先被看作是一个特性,这是有争议的。

票数 10
EN

Data Science用户

发布于 2021-06-16 23:48:19

在您的情况下,特性选择还有另一个好处。您提到您的项目应用于大型数据集。在实践中,通过在拟合模型之前进行特征选择,可以加快拟合过程,因为需要输入到模型的数据较少。

当您的数据是宽的,即有许多列时,这尤其有用。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/51615

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档