文章/答案/技术大牛

发布

社区首页 >问答首页 >从分类数据和序数数据组合中识别顶级预测器

问从分类数据和序数数据组合中识别顶级预测器
EN

Data Science用户

提问于 2015-07-27 05:55:57

回答 2查看 1.2K关注 0票数 0

我有一个有261个预测器的数据集，这些预测器是从一组较大的调查问题中提取出来的。224的数值在一个范围内(约1-10，一些1-4，一些简单的二进制，所有使用0，其中没有给出值)，其余是无序类别。

我试图使用这些预测器执行分类，并确定前n个预测器。我正在考虑以下办法：

将224个有序预测器转换为数字、居中和缩放。
运行单独的建模(我从R中使用卡雷特 )：一个用于使用数字预测器，另一个使用其余的37个分类预测器(在每个建模练习中都是交叉验证的)。
选择最佳拟合模型modelN和modelC作为数值和分类预测器。
从模型N和模型C中选择前n(例如10)预测因子。
将它们合并到一个集成模型中，该模型可以同时处理数字数据和分类数据(例如，随机林)。
在集合模型中选择最优n个预测因子。

我是以一种迂回的方式来处理这个问题，而不是直接将所有的预测因子拟合到一个集合模型中，以便首先降低问题的复杂性(因为在R中，我的预测器有太多级别的问题)。

这是否是一种有效的方法来识别n个最显著的预测因子？有什么可以缓解的问题吗？

feature-selection

categorical-data

classification

回答 2

Data Science用户

回答已采纳

发布于 2015-07-28 12:44:44

里奇

思想松散：

根据您打算使用的算法，中心化可能不是一个好主意(例如，如果您选择支持向量机，中心对将破坏稀疏性)
我建议不要分开处理有序/无序，因为这样可能会错过交互。如果分类值没有太多的可能值，R中的randomForest可以处理各种因素。
如果这是一个问题(正如你似乎暗示的那样)，我认为你有两种可能性:二进制指标或响应率。
如果在计算成本方面是可行的，我会将所有的因素转换成二进制(如果必要的话使用稀疏矩阵)，然后尝试一个贪婪的特征选择。卡雷特，如果记忆服务，有rfe或一些。
如果这太麻烦了，试着计算每个因素级别的响应率/平均值(我看不出你的问题是分类还是回归)：你把你的集合分成几个折叠，然后对每一个折叠都适合一个混合效应模型(例如，通过lme4)，使用兴趣因子作为主要变量。正确设置所有cv有点麻烦，但这是避免信息泄漏的唯一方法。

希望这有帮助，K

票数 1

Data Science用户

发布于 2015-07-27 12:30:12

只是一些随机的想法

你有数学模型可供依据吗？例如，你想要预测压力与温度的关系。不管温度有多远，你都不会放弃任何与“温度”相关的预测器。如果是这样的话，这应该指导你选择预测器，你应该从这一点开始，因为这会给你的最终模型带来更多的可信度。

如果不是，你只想要一个算法来选择最好的预测因子，你有没有想过运行一个带有L1范数的回归模型？这将驱赶出无关紧要的因素，您可以从这个集合开始作为基础。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/6595

复制

相似问题

问从分类数据和序数数据组合中识别顶级预测器
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从分类数据和序数数据组合中识别顶级预测器EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从分类数据和序数数据组合中识别顶级预测器
EN