首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >GridSearch简历:不平衡数据集的合适评分标准

GridSearch简历:不平衡数据集的合适评分标准
EN

Data Science用户
提问于 2021-10-26 03:18:26
回答 3查看 963关注 0票数 1

我是机器学习的新手。这是我的1^{st}机器学习项目,我正在对不平衡的数据集进行分类。目标变量中也有多个类。

我想知道在GridSearchCV中评分最合适的指标是什么。

我认为

  1. roc_au有时用于不平衡的数据集。但是有几个

‘roc_auc’

‘roc_auc_ovo’

‘roc_auc_ovr’

我该用哪一种?

  1. 或者,查准率-召回_auc也被使用.但我似乎找不到GridSearchCV的评分标准。我如何在GridSearchCV中使用它?

谢谢

代码语言:javascript
复制
X_train, X_test, y_train, y_test = train_test_split(X_total, Y_total, random_state=0, test_size=0.25)
kfold =GroupKFold(n_splits=3)
grid_search = GridSearchCV(RandomForestClassifier(random_state=0), hyperF, cv = kfold, scoring=, verbose = 1, n_jobs = -1)
EN

回答 3

Data Science用户

发布于 2022-01-28 12:56:10

一个可能的解决方案是使用scikit-learn的平均值_精密度_得分,它非常类似于精确召回曲线下的区域。

由于average_precision_score是一个度量标准,它将与scikit-learn的GridSearchCV一起工作。

票数 0
EN

Data Science用户

发布于 2022-11-14 06:41:56

在执行“列车测试拆分”之前,处理不平衡数据的最基本步骤是执行UnderSampling或OverSampling,对于不平衡的数据,大多数SMOTE都是推荐的。您可以使用python包imblearn来完成这个任务。

票数 0
EN

Data Science用户

发布于 2022-11-14 07:26:38

我建议首先确定你的专业和辅导班,确定哪个数量从正负,正负,假阳性和假阴性你想优化,然后选择相应的度量。

对于度量的选择,我建议要么选择精确,回忆或F1评分(大调或小调),这取决于上面选择的数量。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103504

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档