首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大量变量组合的P值挖掘

大量变量组合的P值挖掘
EN

Data Science用户
提问于 2018-11-20 18:35:02
回答 1查看 29关注 0票数 3

我真的不知道任何机器学习,但有一个问题,似乎是我应该使用一些ML算法。

我正在分析一项与年龄相关的医学研究,年龄,治疗,性别,以及两种特殊肠道细菌的丰度。这一领域的许多研究人员也喜欢研究这两种细菌的比例。

在使用一个、两个或三个解释变量进行一些回归时,我发现了一些具有非常好的p值的意想不到的组合。例如,控制年龄,细菌-A似乎与病情密切相关,无论治疗.其他细菌似乎与治疗密切相关,不分年龄。我不可能预料到情况会这样。

我觉得寻找更多意想不到的联想可能是有价值的。我可以列出所有一、二和三个组合解释变量,并对这些组合进行六个变量的回归,基本上按p值排序。但是,这类p值挖掘通常是不被接受的,2)可能存在无数种可能的回归。

似乎有某种ML算法可以以客观和系统的方式找出意想不到的关联。

那会是什么?

EN

回答 1

Data Science用户

发布于 2018-11-20 18:45:02

你需要研究多种假设修正方法,如Bonferroni校正或Benjamini Hochberg错误发现率。这种分析的问题在于,你的联想是出乎意料的,所以你没有任何先验假设。你所能做的就是测试每一个组合,然后在对所有测试进行统计之后,看看什么是统计上的显着性。

随着您进行更多的测试,您将越来越有可能仅仅偶然地找到一个关联。为了解决这一问题,多假设修正方法使得p值阈值对显着性的影响更为保守.如果您只做了一次测试,p值为0.05可能表示一个重要的结果.但是,如果您做了一百万次测试,那么其中许多测试的p值偶然会达到0.05,所以您需要更加保守。这种做法一般不受欢迎,因为它适当地考虑了分析方法。但是,您可以很容易地不诚实地使用这种方法,方法是做许多测试,并且只报告重要的测试,而不进行更正。

强制性xkcd:https://xkcd.com/882/

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/41474

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档