首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >更正Python中Means - Tukey HSD的多重比较

更正Python中Means - Tukey HSD的多重比较
EN

Stack Overflow用户
提问于 2020-11-10 21:18:07
回答 1查看 1.1K关注 0票数 1

我有一个包含4个条件(A,B,C,D)的日期集。我观察到运行单向方差分析的结果是,在4种情况下,我的因变量(反应时间,RT)呈线性增长。

我想运行一个后自组织测试,看看在Tukey HSD后自组织测试中,RT从A到B,从B到C,以及从C到D的增加是否显著。

为了在Python中运行测试,我使用了以下代码:

代码语言:javascript
复制
#Multiple Comparison of Means - Tukey HSD
from statsmodels.stats.multicomp import pairwise_tukeyhsd
print(pairwise_tukeyhsd(df["RT"], df['Cond']))

我面临的问题是,这里假设我对所有可能的比较感兴趣(A与B,A与C,A与D,B与C,B与D,C与D)。因此,应用的校正是基于6个测试。然而,我只做了3个比较(A与B,B与C,C与D)的假设。

我如何通知post-hoc测试我感兴趣的比较的数量/类型?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-12 05:34:03

不幸的是,你不能。Tukey HSD不像在原始p值上进行多次比较调整的成对t测试。您看到的p值是基于the studentized range (q) distribution的。

你可以这样做的一种方法是拟合一个线性模型,就像你的anova一样,你对系数进行成对的t检验,并对你需要的系数进行子集。

为了说明这一点,我使用了一些模拟数据,这是TukeyHSD的样子:

代码语言:javascript
复制
import pandas as pd
import numpy as np
from statsmodels.formula.api import ols
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.multitest import multipletests

np.random.seed(123)

df = pd.DataFrame({'RT':np.random.randn(100),'Cond':np.random.choice(['A','B','C','D'],100)})

hs_res=pairwise_tukeyhsd(df["RT"], df['Cond'])
print(hs_res)

Multiple Comparison of Means - Tukey HSD, FWER=0.05
===================================================
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
     A      B  -0.6598 0.2428 -1.5767 0.2571  False
     A      C  -0.3832 0.6946 -1.3334  0.567  False
     A      D   -0.634 0.2663 -1.5402 0.2723  False
     B      C   0.2766 0.7861 -0.5358 1.0891  False
     B      D   0.0258    0.9 -0.7347 0.7864  False
     C      D  -0.2508 0.8257 -1.0513 0.5497  False
---------------------------------------------------

现在我们做ols,你可以看到它是相当类似的:

代码语言:javascript
复制
res = ols("RT ~ Cond", df).fit()
pw = res.t_test_pairwise("Cond",method="sh")
pw.result_frame

    coef    std err t   P>|t|   Conf. Int. Low  Conf. Int. Upp. pvalue-sh   reject-sh
B-A -0.659798   0.350649    -1.881645   0.062914    -1.355831   0.036236    0.352497    False
C-A -0.383176   0.363404    -1.054407   0.294343    -1.104528   0.338176    0.829463    False
D-A -0.633950   0.346604    -1.829032   0.070499    -1.321954   0.054054    0.352497    False
C-B 0.276622    0.310713    0.890281    0.375541    -0.340138   0.893382    0.829463    False
D-B 0.025847    0.290885    0.088858    0.929380    -0.551555   0.603250    0.929380    False
D-C -0.250774   0.306140    -0.819147   0.414731    -0.858458   0.356910    0.829463    False

然后我们选择correction的子集和方法,下面我使用上面的simes-hochberg:

代码语言:javascript
复制
subdf = pw.result_frame.loc[['B-A','C-B','D-C']]
subdf['adj_p'] = multipletests(subdf['P>|t|'].values,method='sh')[1]
subdf

    coef    std err t   P>|t|   Conf. Int. Low  Conf. Int. Upp. pvalue-sh   reject-sh   adj_p
B-A -0.659798   0.350649    -1.881645   0.062914    -1.355831   0.036236    0.352497    False   0.188742
C-B 0.276622    0.310713    0.890281    0.375541    -0.340138   0.893382    0.829463    False   0.414731
D-C -0.250774   0.306140    -0.819147   0.414731    -0.858458   0.356910    0.829463    False   0.414731

作为评论,如果你看到了一种趋势,可能会有其他模型来建模,而不是依赖于posthoc测试。此外,对您需要的测试进行子集并执行更正可以被认为是某种类型的樱桃采摘。如果比较的次数(如您的示例6),我建议您使用Tukey。这是你可以在交叉验证上发布的另一个讨论。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64769693

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档