文章/答案/技术大牛

发布

社区首页 >问答首页 >有很多特性(超过300个)来处理回归问题的最佳方法是什么，其中许多都是绝对的？

问有很多特性(超过300个)来处理回归问题的最佳方法是什么，其中许多都是绝对的？
EN

Data Science用户

提问于 2019-06-23 23:38:37

回答 3查看 132关注 0票数 0

我有20,000培训的例子，不同的候选人属性(最高的教育水平，国家，年的正式培训完成，等等)。

我的输出(预测)将用于job_performance，这是在700和4,200之间测量的(在我的训练数据中)。起初，我想把一个fully connected neural network组合在一起，但我在Kaggle竞赛中尝试了一个类似的问题，但没有产生很好的效果。你会用什么方法(S)开始？

predictive-modeling

回答 3

Data Science用户

回答已采纳

发布于 2019-06-25 08:46:10

沙门！如果你想用正确的方式做这件事。您还需要考虑您的模型使用20Kx300功能值的时间。

所以从数据预处理开始。

对分类数据进行编码(例如一次热编码)
减少尺寸(这里是一个不错的笔记本)

然后再考虑一下你的数据。您可以尝试流行的随机森林和支持向量机。最好的方法取决于特征值的分布方式。

祝好运!

票数 2

Data Science用户

发布于 2019-06-25 09:31:53

尝试做一个主成分分析，得到减少的特征集，然后在循环中应用回归技术，看看哪一个预测更好。支持向量机可能需要一些时间来执行，所以更好地排除它。在这种情况下，随机森林应该是一个很好的选择。

票数 3

Data Science用户

发布于 2019-06-24 00:52:25

笔者认为，RandmForest和Logistic回归提供了一种特征选择方法，根据它们在回归结果中的重要性对特征进行排序。在R中，每个特征的p值都得到了相似的结果.

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/54352

复制

相似问题

问有很多特性(超过300个)来处理回归问题的最佳方法是什么，其中许多都是绝对的？
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有很多特性(超过300个)来处理回归问题的最佳方法是什么，其中许多都是绝对的？EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有很多特性(超过300个)来处理回归问题的最佳方法是什么，其中许多都是绝对的？
EN