首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有很多特性(超过300个)来处理回归问题的最佳方法是什么,其中许多都是绝对的?

有很多特性(超过300个)来处理回归问题的最佳方法是什么,其中许多都是绝对的?
EN

Data Science用户
提问于 2019-06-23 23:38:37
回答 3查看 132关注 0票数 0

我有20,000培训的例子,不同的候选人属性(最高的教育水平,国家,年的正式培训完成,等等)。

我的输出(预测)将用于job_performance,这是在7004,200之间测量的(在我的训练数据中)。起初,我想把一个fully connected neural network组合在一起,但我在Kaggle竞赛中尝试了一个类似的问题,但没有产生很好的效果。你会用什么方法(S)开始?

EN

回答 3

Data Science用户

回答已采纳

发布于 2019-06-25 08:46:10

沙门!如果你想用正确的方式做这件事。您还需要考虑您的模型使用20Kx300功能值的时间。

所以从数据预处理开始。

  1. 对分类数据进行编码(例如一次热编码)
  2. 减少尺寸(这里是一个不错的笔记本)

然后再考虑一下你的数据。您可以尝试流行的随机森林和支持向量机。最好的方法取决于特征值的分布方式。

祝好运!

票数 2
EN

Data Science用户

发布于 2019-06-25 09:31:53

尝试做一个主成分分析,得到减少的特征集,然后在循环中应用回归技术,看看哪一个预测更好。支持向量机可能需要一些时间来执行,所以更好地排除它。在这种情况下,随机森林应该是一个很好的选择。

票数 3
EN

Data Science用户

发布于 2019-06-24 00:52:25

笔者认为,RandmForest和Logistic回归提供了一种特征选择方法,根据它们在回归结果中的重要性对特征进行排序。在R中,每个特征的p值都得到了相似的结果.

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/54352

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档