我是一名医生,试图根据大约1500个60+参数的患者的数据库建立预测模型。
我正在处理一个分类问题( 1、3、6和12个月的死亡率),并对每个时间点进行分层分割(70次训练/ 30次测试),并在训练随机森林、GLM和eXtreme梯度增强模型之前,使用Boruta算法进行特征选择。用网格搜索和10倍CV对XGB和RF模型的训练数据进行超参数调整。
所有模型的AUC约为0.80 (RF模型稍好),RF的Brier评分在0.09-0.17之间,其他两个模型的评分在0.13-0.23之间。
因此,根据Brier评分,射频模型似乎有一点优势,但我想知道:
-Should我做了更多的性能测量?是哪一个,为什么?
-How来解释我的结果?我的理解是,当GLM模型运行良好时,预测器之间似乎存在线性关联,但是RF在性能和精度方面仍然有一些优势,但是它的缺点是成为一个更“复杂”的模型。
我计划用不同的数据集进行外部验证,但到目前为止,我非常有兴趣了解其他测量结果是否能说明不同模型的优点,而且我肯定我遗漏了一些东西,因为我对这一领域很陌生,很有兴趣听取任何建议/意见。
谢谢!
发布于 2023-02-08 20:56:32
我应该做更多的绩效评估吗?是哪一个,为什么?
一般来说,性能度量的选择应该根据您的目标和数据集的特性来进行。如果你关心的是最大限度地提高原始准确性,那么brier分数是一个很好的衡量标准。
然而,在许多情况下(特别是在医学领域),最大限度地提高原始准确性并不是一个合适的目标。一个典型的例子是癌症筛查。假阳性--也就是说,你告诉病人他们患有癌症,但后来发现他们没有--比假阴性的危害小得多--即癌症未被发现,有更多的时间传播。
另一个具有原始准确性的陷阱是不平衡的数据集(在医疗领域也很常见)。这里的一个典型例子是信用卡欺诈检测。由于绝大多数交易都不是欺诈性的,所以只要将每一笔交易归类为非欺诈性交易,模型就能达到99%以上的准确性。
所有这些都是为了说,你应该考虑你的问题的细节,并选择一个实际衡量你所关心的事情的性能度量。考虑正确的和不正确的预测的影响,并解释数据集中的偏见。其他一些建议可能是精确,召回和F分
如何解释我的结果?我的理解是,当GLM模型运行良好时,预测器之间似乎存在线性关联,但是RF在性能和精度方面仍然有一些优势,但是它的缺点是成为一个更“复杂”的模型。
听起来是对的!因为这是一个分类问题,所以可以更精确地说这些类几乎是线性可分的。说“线性关联”让我觉得这是个回归问题。但那是个小小的挑剔
结果中的一个令人困惑的问题是RF和XGB之间的区别。两者都是树集合模型,梯度增强通常优于RF。找出这两人为何表现出如此不同的表现,或许会很有趣。
https://datascience.stackexchange.com/questions/118378
复制相似问题