首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >机器学习中统计分析(统计重要特征)与特征消除的目的是什么?

机器学习中统计分析(统计重要特征)与特征消除的目的是什么?
EN

Data Science用户
提问于 2022-05-01 10:18:43
回答 1查看 65关注 0票数 1

我正在为covid19症状(生病后)开发一个分类模型,我不理解统计分析的重要性(其中一些部分)。

1.首先:基本上我们进行状态分析来了解数据。然而,计算平均值、标准差的目的是什么,如下所示:

https://www.sciencedirect.com/science/article/pii/S0010482522000762#bib27

它会给我什么样的洞察力?

此外,他们还进行了统计检验,如X-平方,以寻找有统计学意义的特征。假设他们有大约15个“血液参数”,测试会告诉我们其中只有10个在统计学上是重要的。这是否意味着这5将不会用于培训和可以删除?

如果他们可以被删除:特征消除证明是一样的吗?假设我们使用了递归特征消除/随机森林的10个最佳特征。结果会是一样的吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-05-01 16:30:06

虽然细节上没有,但看起来他们采用了一些连续变量,对它们进行了排序,然后使用卡方来确定特征集。没有解释他们为什么这么做。也是关于那些没有发现有意义的特征。您当然可以在模型中使用它们。卡方是一个弱检验,在模型中可能存在有意义的相互作用。

无论如何,统计测试都是探索性的。则不直接用于推理。在接近任何ML之前,执行基本的统计描述性统计总是一种良好的实践。例如,如果不首先看到有多少值,就不可能执行缺失的值估算。还请注意,MVC变量在COVID和非COVID响应之间有重叠的置信区间,这有时是一个信号,表明由于该变量没有显著差异。

他们选择了四个特征:白细胞计数(WBC)、单核细胞计数(MOT)、年龄和淋巴细胞计数(LYT),并通过8种机器学习算法对其进行分类,并采用叠加ML模型。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/110532

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档