我有20,000培训的例子,不同的候选人属性(最高的教育水平,国家,年的正式培训完成,等等)。
我的输出(预测)将用于job_performance,这是在700和4,200之间测量的(在我的训练数据中)。起初,我想把一个fully connected neural network组合在一起,但我在Kaggle竞赛中尝试了一个类似的问题,但没有产生很好的效果。你会用什么方法(S)开始?
发布于 2019-06-25 08:46:10
沙门!如果你想用正确的方式做这件事。您还需要考虑您的模型使用20Kx300功能值的时间。
所以从数据预处理开始。
然后再考虑一下你的数据。您可以尝试流行的随机森林和支持向量机。最好的方法取决于特征值的分布方式。
祝好运!
发布于 2019-06-25 09:31:53
尝试做一个主成分分析,得到减少的特征集,然后在循环中应用回归技术,看看哪一个预测更好。支持向量机可能需要一些时间来执行,所以更好地排除它。在这种情况下,随机森林应该是一个很好的选择。
发布于 2019-06-24 00:52:25
笔者认为,RandmForest和Logistic回归提供了一种特征选择方法,根据它们在回归结果中的重要性对特征进行排序。在R中,每个特征的p值都得到了相似的结果.
https://datascience.stackexchange.com/questions/54352
复制相似问题