我正在做一个随机森林多分类器模型。基本上有一百个有200+特征的家庭,基于这些特性,我必须将它们分类为{1,2,3,4,5,6}类中的一个。
我面临的问题是,无论我能尝试多少,我都无法提高模型的准确性。我使用过RandomSearchCV和GridSearchCV,但我只能达到68%左右的准确度。
值得注意的几点
你们还有什么建议来提高准确度/F1得分?从很长一段时间以来,这个问题一直困扰着我。任何帮助都将不胜感激。
发布于 2022-01-21 11:17:14
您可以检查功能是否在不同的尺度上。如果是,则建议使用某种类型的规范化。对于许多基于线性的模型来说,这一步骤是非常重要的。您可以快速查看每个数字特性的发行版,以决定使用哪种类型的规范化。
发布于 2022-01-21 11:45:03
尝试在以下参数下进行调优
n_estimators
这是你想要建立的树的数目,然后进行最大的投票或预测的平均数。树数越多,性能越好,但代码速度越慢。
max_features
这些是允许随机森林在单个树中尝试的最大特征数。Python中有多个选项可用于分配最大的特性。
min_sample_leaf
叶是决策树的末端节点。较小的叶子使得模型更容易捕捉到列车数据中的噪声。您可以从一些最小值开始,比如75,然后逐步增加它。看看你的准确度有多高。
否则:
https://stackoverflow.com/questions/52703577
复制相似问题