我正在为covid19症状(生病后)开发一个分类模型,我不理解统计分析的重要性(其中一些部分)。
1.首先:基本上我们进行状态分析来了解数据。然而,计算平均值、标准差的目的是什么,如下所示:
https://www.sciencedirect.com/science/article/pii/S0010482522000762#bib27
它会给我什么样的洞察力?
此外,他们还进行了统计检验,如X-平方,以寻找有统计学意义的特征。假设他们有大约15个“血液参数”,测试会告诉我们其中只有10个在统计学上是重要的。这是否意味着这5将不会用于培训和可以删除?
如果他们可以被删除:特征消除证明是一样的吗?假设我们使用了递归特征消除/随机森林的10个最佳特征。结果会是一样的吗?
发布于 2022-05-01 16:30:06
虽然细节上没有,但看起来他们采用了一些连续变量,对它们进行了排序,然后使用卡方来确定特征集。没有解释他们为什么这么做。也是关于那些没有发现有意义的特征。您当然可以在模型中使用它们。卡方是一个弱检验,在模型中可能存在有意义的相互作用。
无论如何,统计测试都是探索性的。则不直接用于推理。在接近任何ML之前,执行基本的统计描述性统计总是一种良好的实践。例如,如果不首先看到有多少值,就不可能执行缺失的值估算。还请注意,MVC变量在COVID和非COVID响应之间有重叠的置信区间,这有时是一个信号,表明由于该变量没有显著差异。
他们选择了四个特征:白细胞计数(WBC)、单核细胞计数(MOT)、年龄和淋巴细胞计数(LYT),并通过8种机器学习算法对其进行分类,并采用叠加ML模型。
https://datascience.stackexchange.com/questions/110532
复制相似问题