首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用决策树方法识别多元回归自变量

用决策树方法识别多元回归自变量
EN

Data Science用户
提问于 2016-08-07 22:05:11
回答 1查看 1.2K关注 0票数 1

访问具有数百个变量和数百个案例的数据集(美国社区调查)。

需要确定一个小的、可管理的独立变量集(IVs)用于多元回归。

当然,要做到这一点,一种方法就是使用适用的理论来识别IVs。

想知道如何使用数据驱动(数据挖掘)?办法如下:

  • 使用决策树来识别影响(候选人?相关的?)静脉滴注?
  • 然后用这些作为多元回归中的IVs?

(似乎记得顺便读过一次,这种变量缩减方法是允许的。)

试着在Google上搜索能澄清上述内容的文章,但是搜索条件是这样的,所以我会不断地点击比较决策树和多元回归的文章。

因此,如果你知道的文章和研究论文,说明如何做上述,请留下以下的链接。此外,我也欢迎你就如何进行工作提出自己的初步建议。

EN

回答 1

Data Science用户

回答已采纳

发布于 2016-08-08 02:26:04

决策树用于确定IVs和DV组合之间的嵌套/交互关系。

您指定的模型,一个多元回归,预设了IVs和DV (例如线性)之间的关系。

正如您所知,这些模型是不同的。因此,使用决策树和一些重要度量来寻找预测变量并不一定会在回归模型中为您提供一组最优的IVs。

尽管如此,这可能是一个有益的练习,告知您的非线性关系或交互条件,可以预测,这些可能无法通过指定一个模型,如多元回归。

如果我是你,我不会仅仅依靠决策树来确定回归模型的一组IVs。我会研究惩罚回归方法,如拉索或脊回归,以帮助您从减少的候选IVs集到您的最终IVs。此外,您可能希望探索与您的模型规范相关的关联度量,这些度量可能有助于探索数据中的关系,例如信息值、卡方测试、相关性等。

这可能会有帮助:https://stats.stackexchange.com/questions/47367/decision-tree-as-variable-selection-for-logistic-regression

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13272

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档