我目前正在做一个项目,其中我有一个数据集,它包含了大量的血液样本和每个样本中不同生物化合物的数量。
样本分为三组:重度疾病组、轻度疾病组和对照组。
我的目的是试图找出哪些化合物与严重疾病有显著的关系,哪些与轻度疾病有显著的关系,与对照组相比。这意味着,如果我要写出我的结果,我需要能够看到每个化合物的单独名称(目前在dataframe中的列名)。
我希望使用逻辑回归,但我不知道如何做到这样的方式,我可以提取这些特定化合物的名称。
我也意识到我应该在某种程度上减少我的数据集,但是如果我用主成分完成回归分析,我将无法确定哪一个化合物是重要的?
发布于 2022-08-04 14:19:04
使用一些R包,您可能会看到每个特性的p值。对于数值特性,它将显示在整个列中。然而,对于分类特征,它将出现在每一个因素。请参阅此链接上的模型。https://www.r-bloggers.com/2015/09/how-to-perform-a-logistic-regression-in-r/
https://datascience.stackexchange.com/questions/113219
复制相似问题