我已经在另一个论坛上发布了这篇文章,但没有回复。所以,把它贴在这里。
目前,在临床实践中,临床医生使用一个评分(作为一个单一的特征)来预测病人的死亡率。现在,在我的项目中,基于临床医生的输入,我们创造了两个新的功能,看看我们是否可以提高预测的准确性。由于我们的目标是预测是或否,我尝试了logistic回归,得到了以下结果。

现在我的问题如下
( a)由于3.2k行的数据集不平衡(87:13),我试图优化分类的决策阈值。但基于特征集的优化决策阈值会发生变化。所以,我想这是意料之中的,而且我的比较仍然有效。例如,我将模型A与只有一个特性(existing_feature)的模型B与两个特性(existing_feature和new_feat_1)以及模型C与两个特性(existing_feature、new_feat_1和new_feat_2)进行比较。我的比较有效吗?我不能拥有相同的阈值,因为当我有不同的特性时,最优阈值肯定会改变。我不能选择0.5作为缺省值,因为我的数据集不平衡(87:13)。有什么建议吗?我应该改变还是不改变不同模型的最优阈值?
( b)由于我的数据不平衡,我把F1评分作为一个评价指标。我们可以看到,由于增加了2个新功能,F1评分有了一些改进。我怎么知道这两个新特性确实有用(并增加了预测的价值),而不仅仅是随机的机会?关于如何评估这一特性的有用性,有什么建议吗?请注意,我正在使用random_state变量中的scikit-学习日志回归函数。所以其他的一切都是可控的。它只是增加了新的功能,并改变了它的最佳阈值。我不会改变任何事情。
( c)在医院的情况下,假阴性是昂贵的。这意味着,如果我们错过了对一个人的死亡风险很高的预测,那么代价是巨大的。所以,我想我们得看看它的精确性。然而,你可以看到,我的召回率正在大幅下降。那么,我应该如何决定这个模型和新特性是否有用?
( d)为了便于解释,我只使用logistic回归模型。您是否建议我运行其他模型,如支持向量机、射频和Xgboost等?由于我的数据集是不平衡和非线性分离的,你认为尝试其他模型也是好的吗?或者根据你的经验,从结果来看,你认为这方面还没有进一步的改进吗?
( e)我使用class_weight=balanced参数来运行日志记录模型,因为数据集是平衡的。你建议我对少数族裔进行过度抽样吗?事实上,与活着的人相比,死亡的人总是要少一些(因为我正在研究的问题)。也就是说,积极的阶级永远是少数人阶级。所以,我应该对它进行过度采样,还是只使用class_weight=balanced参数并继续执行我的任务?
( f)我可以使用gridsearchCV,并找到模型A使用的最佳参数。我是否必须为每个模型A、B和C运行gridsearchCV来确定最佳参数。如果我要为每个模型使用不同的最佳参数,那么我无法比较它们的性能。我说的对吗?因为我正在更改超参数,这违反了模型比较和评估的受控设置标准。我怎么发动汽车呢?
发布于 2021-06-04 23:44:37
一般性评论:你的两种新模型在精确性和回忆性方面给出了非常不同的结果,我觉得这有点令人吃惊。我可能会尝试不同的学习方法(例如决策树,支持向量机),以调查这是否真的是由特征引起的。
绝对的,阈值应该针对模型和特征,保持相同的值是次优的。
( b)一般情况下,人们会检查模型之间的性能是否存在统计上的显着差异。我不确定哪种意义测试在这里合适。
然后,您应该使用F_{\beta}#qcStackCode#-score来评估您的模型,而不是只使用F1,\beta高于1,以便于召回。我会说至少2,这取决于FN比FP错误花费多大。请注意,还应根据此度量选择阈值。
我当然会尝试不同的方法,因为总是有可能有另一种方法会表现得更好。我总是推荐决策树,因为它们是健壮的和可解释的。
( e)我不确定,但这里可能会出现混淆:class_weight=balanced意味着您对少数类的重视程度高于它在数据中真正表示的内容,换句话说,学习算法的工作方式就好像这两个类具有相同的实例数一样。因此,据我所知,在使用权重的同时再进行重采样是没有意义的。但是,您可以提供手动权重,例如,0.1,0.9,如果您希望更多地检测少数类(这将增加回忆)。顺便说一句,我建议也尝试一下,不要使用权重:在回忆方面不太可能是好的,但是在这种情况下只知道精确/召回可能是有用的。
( f)对于超参数的整定,重要的一点是使用与最终测试集不同的验证集。对于每个独立的“方法”(一组特性):
然后,您可以将3种最终模型应用到未见的测试集上,并比较它们的性能。从本质上说,参数调整是培训过程的一部分(这是一种“元培训”),所以只要您不使用测试集来确定最佳参数,就不会有数据泄漏。
https://datascience.stackexchange.com/questions/96247
复制相似问题