首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从分类数据和序数数据组合中识别顶级预测器

从分类数据和序数数据组合中识别顶级预测器
EN

Data Science用户
提问于 2015-07-27 05:55:57
回答 2查看 1.2K关注 0票数 0

我有一个有261个预测器的数据集,这些预测器是从一组较大的调查问题中提取出来的。224的数值在一个范围内(约1-10,一些1-4,一些简单的二进制,所有使用0,其中没有给出值),其余是无序类别。

我试图使用这些预测器执行分类,并确定前n个预测器。我正在考虑以下办法:

  1. 将224个有序预测器转换为数字、居中和缩放。
  2. 运行单独的建模(我从R中使用卡雷特 ):一个用于使用数字预测器,另一个使用其余的37个分类预测器(在每个建模练习中都是交叉验证的)。
  3. 选择最佳拟合模型modelN和modelC作为数值和分类预测器。
  4. 从模型N和模型C中选择前n(例如10)预测因子。
  5. 将它们合并到一个集成模型中,该模型可以同时处理数字数据和分类数据(例如,随机林)。
  6. 在集合模型中选择最优n个预测因子。

我是以一种迂回的方式来处理这个问题,而不是直接将所有的预测因子拟合到一个集合模型中,以便首先降低问题的复杂性(因为在R中,我的预测器有太多级别的问题)。

这是否是一种有效的方法来识别n个最显著的预测因子?有什么可以缓解的问题吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2015-07-28 12:44:44

里奇

思想松散:

  • 根据您打算使用的算法,中心化可能不是一个好主意(例如,如果您选择支持向量机,中心对将破坏稀疏性)
  • 我建议不要分开处理有序/无序,因为这样可能会错过交互。如果分类值没有太多的可能值,R中的randomForest可以处理各种因素。
  • 如果这是一个问题(正如你似乎暗示的那样),我认为你有两种可能性:二进制指标或响应率。
  • 如果在计算成本方面是可行的,我会将所有的因素转换成二进制(如果必要的话使用稀疏矩阵),然后尝试一个贪婪的特征选择。卡雷特,如果记忆服务,有rfe或一些。
  • 如果这太麻烦了,试着计算每个因素级别的响应率/平均值(我看不出你的问题是分类还是回归):你把你的集合分成几个折叠,然后对每一个折叠都适合一个混合效应模型(例如,通过lme4),使用兴趣因子作为主要变量。正确设置所有cv有点麻烦,但这是避免信息泄漏的唯一方法。

希望这有帮助,K

票数 1
EN

Data Science用户

发布于 2015-07-27 12:30:12

只是一些随机的想法

你有数学模型可供依据吗?例如,你想要预测压力与温度的关系。不管温度有多远,你都不会放弃任何与“温度”相关的预测器。如果是这样的话,这应该指导你选择预测器,你应该从这一点开始,因为这会给你的最终模型带来更多的可信度。

如果不是,你只想要一个算法来选择最好的预测因子,你有没有想过运行一个带有L1范数的回归模型?这将驱赶出无关紧要的因素,您可以从这个集合开始作为基础。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/6595

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档