我是机器学习的新手。这是我的1^{st}机器学习项目,我正在对不平衡的数据集进行分类。目标变量中也有多个类。
我想知道在GridSearchCV中评分最合适的指标是什么。
我认为
‘roc_auc’
‘roc_auc_ovo’
‘roc_auc_ovr’
我该用哪一种?
谢谢
X_train, X_test, y_train, y_test = train_test_split(X_total, Y_total, random_state=0, test_size=0.25)
kfold =GroupKFold(n_splits=3)
grid_search = GridSearchCV(RandomForestClassifier(random_state=0), hyperF, cv = kfold, scoring=, verbose = 1, n_jobs = -1)发布于 2022-01-28 12:56:10
一个可能的解决方案是使用scikit-learn的平均值_精密度_得分,它非常类似于精确召回曲线下的区域。
由于average_precision_score是一个度量标准,它将与scikit-learn的GridSearchCV一起工作。
发布于 2022-11-14 06:41:56
在执行“列车测试拆分”之前,处理不平衡数据的最基本步骤是执行UnderSampling或OverSampling,对于不平衡的数据,大多数SMOTE都是推荐的。您可以使用python包imblearn来完成这个任务。
发布于 2022-11-14 07:26:38
我建议首先确定你的专业和辅导班,确定哪个数量从正负,正负,假阳性和假阴性你想优化,然后选择相应的度量。
对于度量的选择,我建议要么选择精确,回忆或F1评分(大调或小调),这取决于上面选择的数量。
https://datascience.stackexchange.com/questions/103504
复制相似问题