大多数功能在本质上是分类的,我使用随机森林并使用Stratified K fold (10折)进行验证,我的验证AUC相当高,约为0.98-99。在提交时,我无法获得超过0.85的AUC,这是一个巨大的偏差。我尝试了很多方法,比如PCA和特征选择,但我的验证并不可信,提交分数也没有提高。cross_val_score(X=X,y=y,cv=skf,estimator=pipe_rf,scoring='accuracy')))
使用目标编码,我的验证给出了平均98%的准确率(数据是平衡的,所以使用准确度,AUC