文章/答案/技术大牛

发布

社区首页 >问答首页 >大量变量组合的P值挖掘

问大量变量组合的P值挖掘
EN

Data Science用户

提问于 2018-11-20 18:35:02

回答 1查看 29关注 0票数 3

我真的不知道任何机器学习，但有一个问题，似乎是我应该使用一些ML算法。

我正在分析一项与年龄相关的医学研究，年龄，治疗，性别，以及两种特殊肠道细菌的丰度。这一领域的许多研究人员也喜欢研究这两种细菌的比例。

在使用一个、两个或三个解释变量进行一些回归时，我发现了一些具有非常好的p值的意想不到的组合。例如，控制年龄，细菌-A似乎与病情密切相关，无论治疗.其他细菌似乎与治疗密切相关，不分年龄。我不可能预料到情况会这样。

我觉得寻找更多意想不到的联想可能是有价值的。我可以列出所有一、二和三个组合解释变量，并对这些组合进行六个变量的回归，基本上按p值排序。但是，这类p值挖掘通常是不被接受的，2)可能存在无数种可能的回归。

似乎有某种ML算法可以以客观和系统的方式找出意想不到的关联。

那会是什么？

algorithms

logistic-regression

model-selection

regression

linear-regression

回答 1

Data Science用户

发布于 2018-11-20 18:45:02

你需要研究多种假设修正方法，如Bonferroni校正或Benjamini Hochberg错误发现率。这种分析的问题在于，你的联想是出乎意料的，所以你没有任何先验假设。你所能做的就是测试每一个组合，然后在对所有测试进行统计之后，看看什么是统计上的显着性。

随着您进行更多的测试，您将越来越有可能仅仅偶然地找到一个关联。为了解决这一问题，多假设修正方法使得p值阈值对显着性的影响更为保守.如果您只做了一次测试，p值为0.05可能表示一个重要的结果.但是，如果您做了一百万次测试，那么其中许多测试的p值偶然会达到0.05，所以您需要更加保守。这种做法一般不受欢迎，因为它适当地考虑了分析方法。但是，您可以很容易地不诚实地使用这种方法，方法是做许多测试，并且只报告重要的测试，而不进行更正。

强制性xkcd：https://xkcd.com/882/

票数 4

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/41474

复制

相似问题

问大量变量组合的P值挖掘
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大量变量组合的P值挖掘EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大量变量组合的P值挖掘
EN