访问具有数百个变量和数百个案例的数据集(美国社区调查)。
需要确定一个小的、可管理的独立变量集(IVs)用于多元回归。
当然,要做到这一点,一种方法就是使用适用的理论来识别IVs。
想知道如何使用数据驱动(数据挖掘)?办法如下:
(似乎记得顺便读过一次,这种变量缩减方法是允许的。)
试着在Google上搜索能澄清上述内容的文章,但是搜索条件是这样的,所以我会不断地点击比较决策树和多元回归的文章。
因此,如果你知道的文章和研究论文,说明如何做上述,请留下以下的链接。此外,我也欢迎你就如何进行工作提出自己的初步建议。
发布于 2016-08-08 02:26:04
决策树用于确定IVs和DV组合之间的嵌套/交互关系。
您指定的模型,一个多元回归,预设了IVs和DV (例如线性)之间的关系。
正如您所知,这些模型是不同的。因此,使用决策树和一些重要度量来寻找预测变量并不一定会在回归模型中为您提供一组最优的IVs。
尽管如此,这可能是一个有益的练习,告知您的非线性关系或交互条件,可以预测,这些可能无法通过指定一个模型,如多元回归。
如果我是你,我不会仅仅依靠决策树来确定回归模型的一组IVs。我会研究惩罚回归方法,如拉索或脊回归,以帮助您从减少的候选IVs集到您的最终IVs。此外,您可能希望探索与您的模型规范相关的关联度量,这些度量可能有助于探索数据中的关系,例如信息值、卡方测试、相关性等。
https://datascience.stackexchange.com/questions/13272
复制相似问题