我试着做多类分类问题。目标是预测这场比赛是由HomeTeam,AwayTeam还是平局赢得。我从属性中进行了特征工程,最后得到了最终的数据来训练分类器。我确保所有3类的数据都是平衡的。
为了训练分类器,我使用了XGB分类器、Logistic回归、SGD分类器和正常DNN(Tensorflow估计)。我检查了所有分类器的度量标准,并且从分类器中选择了最好的一个。
验证集上的Linear SGD分类器性能
Class, Precision, Recall, spe, f1, geo, iba, sup
A 0.58 0.69 0.79 0.63 0.74 0.54 275
D 0.51 0.61 0.66 0.55 0.63 0.40 338
H 0.81 0.50 0.94 0.62 0.69 0.45 315
Avg/mean 0.63 0.60 0.79 0.60 0.68 0.46 928 测试数据集的Model性能
pre rec spe f1 geo iba sup
A 0.87 0.55 0.97 0.67 0.73 0.51 84
D 0.43 0.69 0.66 0.53 0.67 0.45 83
H 0.80 0.69 0.86 0.74 0.77 0.58 139我们可以看到,这个模型在<#>A和H类上是稳定的,但是对于D类,精度却很差。我认为由于缺少特性,D类的模型表现不佳,但我做了几次EDA和来提高类D的召回率。
我的问题是,Is这个模型被认为是稳定的?
发布于 2019-01-19 09:37:35
考虑因素:我认为A是不稳定的,因为它在验证和测试结果之间有很大的差异。
回答前的几个问题:
https://datascience.stackexchange.com/questions/44223
复制相似问题