我有一个有261个预测器的数据集,这些预测器是从一组较大的调查问题中提取出来的。224的数值在一个范围内(约1-10,一些1-4,一些简单的二进制,所有使用0,其中没有给出值),其余是无序类别。
我试图使用这些预测器执行分类,并确定前n个预测器。我正在考虑以下办法:
我是以一种迂回的方式来处理这个问题,而不是直接将所有的预测因子拟合到一个集合模型中,以便首先降低问题的复杂性(因为在R中,我的预测器有太多级别的问题)。
这是否是一种有效的方法来识别n个最显著的预测因子?有什么可以缓解的问题吗?
发布于 2015-07-28 12:44:44
里奇
思想松散:
希望这有帮助,K
发布于 2015-07-27 12:30:12
只是一些随机的想法
你有数学模型可供依据吗?例如,你想要预测压力与温度的关系。不管温度有多远,你都不会放弃任何与“温度”相关的预测器。如果是这样的话,这应该指导你选择预测器,你应该从这一点开始,因为这会给你的最终模型带来更多的可信度。
如果不是,你只想要一个算法来选择最好的预测因子,你有没有想过运行一个带有L1范数的回归模型?这将驱赶出无关紧要的因素,您可以从这个集合开始作为基础。
https://datascience.stackexchange.com/questions/6595
复制相似问题