首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >具有范畴预测和交互作用的二项logistic回归(二项式家庭论证和p-值差异)

具有范畴预测和交互作用的二项logistic回归(二项式家庭论证和p-值差异)
EN

Stack Overflow用户
提问于 2017-10-09 16:38:43
回答 1查看 636关注 0票数 0

当我在glm模型中使用交互作用加上家庭=二项式论点时,以及当我忽略它时,我有一个关于意义和意义差异的问题。我对logistic回归非常陌生,过去我只做过更简单的线性回归。

我有一个关于树木生长年轮的观测数据集,其中包含的两个分类解释变量(处理和Origin)。处理变量为试验干旱处理,有四个层次(对照、第一干旱、第二干旱和两个干旱)。原产地变量有三个级别,并引用树的起源(给定代码颜色来表示不同的来源,如红色、黄色和蓝色)。我观察到是否存在生长环(1 =生长环存在,0=无生长环)。

在我的例子中,我感兴趣的是治疗的效果,起源的效果,以及治疗和起源的可能相互作用。

结果表明,二项logistic回归是分析该数据集的一种较好的方法。(希望这是合适的?也许有更好的方法?)

我有n=5 (5次观察,每次结合治疗的起源。例如,控制处理蓝源树的生长年轮观测5次,控制处理黄源树观测5次等。因此,在数据集中总共有60个生长环的观测结果。

在R中,我使用的代码是glm()函数。我将其设置为: growthring_model <- glm(growthringobs ~热处理+原产地+处理: Origin,data = growthringdata,family = binomial(link = "logit"))

我已经考虑了我的解释变量,所以控制处理和蓝色原始树是我的参考。

我注意到的是,当我将“族=二项式”参数从代码中去掉时,它就给出了p-值,在数据的结果下,我可以合理地预期它的值。但是,当我添加“族=二项式”参数时,p值是1或非常接近1(例如,1、0.98、0.99 )。这听起来很奇怪。我可以看到它的重要性很低,但所有的数值都接近1,这让我对我的实际数据感到怀疑。如果我不使用“族=二项式”参数来运行模型,那么我得到的p值似乎更有意义(尽管它们仍然相对较高/微不足道)。

,有人能帮助我理解二项式论点是如何改变我的结果的吗?(我知道它指的是分布,即我的观测值是1还是0)它在模型中到底发生了什么变化?这是小样本的结果吗?我的密码里有什么东西吗?也许那些非常高的价值观是正确的(或不正确?)

这里宣读了我的模型摘要,并给出了二项式的论点: Call: glm(公式=增长~治疗+开始+治疗:开始,家庭=二项式(链接= "logit"),data =增长数据)

代码语言:javascript
复制
Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.79412  -0.00005  -0.00005  -0.00005   1.79412  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                          -2.057e+01  7.929e+03  -0.003    0.998
TreatmentFirst Drought               -9.931e-11  1.121e+04   0.000    1.000
TreatmentSecond Drought               1.918e+01  7.929e+03   0.002    0.998
TreatmentTwo Droughts                -1.085e-10  1.121e+04   0.000    1.000
OriginYellow                          1.918e+01  7.929e+03   0.002    0.998
OriginRed                            -1.045e-10  1.121e+04   0.000    1.000
TreatmentFirst Drought:OriginYellow  -1.918e+01  1.373e+04  -0.001    0.999
TreatmentSecond Drought:OriginYellow -1.739e+01  7.929e+03  -0.002    0.998
TreatmentTwo Droughts:OriginYellow   -1.918e+01  1.373e+04  -0.001    0.999
TreatmentFirst Drought:OriginRed      1.038e-10  1.586e+04   0.000    1.000
TreatmentSecond Drought:OriginRed     2.773e+00  1.121e+04   0.000    1.000
TreatmentTwo Droughts:OriginRed       2.016e+01  1.373e+04   0.001    0.999

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 57.169  on 59  degrees of freedom
Residual deviance: 28.472  on 48  degrees of freedom
AIC: 52.472

Number of Fisher Scoring iterations: 19

这里宣读了我的模型总结,没有二项式的论点:调用:glm(公式=增长~治疗+开始+治疗:原产地,数据=增长数据)

代码语言:javascript
复制
Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-0.8     0.0     0.0     0.0     0.8  

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)  
(Intercept)                          -4.278e-17  1.414e-01   0.000           1.0000  
TreatmentFirst Drought                3.145e-16  2.000e-01   0.000   1.0000  
TreatmentSecond Drought               2.000e-01  2.000e-01   1.000   0.3223  
TreatmentTwo Droughts                 1.152e-16  2.000e-01   0.000   1.0000  
OriginYellow                          2.000e-01  2.000e-01   1.000   0.3223  
OriginRed                             6.879e-17  2.000e-01   0.000   1.0000  
TreatmentFirst Drought:OriginYellow  -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentSecond Drought:OriginYellow  2.000e-01  2.828e-01   0.707   0.4829  
TreatmentTwo Droughts:OriginYellow   -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentFirst Drought:OriginRed     -3.243e-16  2.828e-01   0.000   1.0000  
TreatmentSecond Drought:OriginRed     6.000e-01  2.828e-01   2.121   0.0391 *
TreatmentTwo Droughts:OriginRed       4.000e-01  2.828e-01   1.414   0.1638  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 0.1)

    Null deviance: 8.9833  on 59  degrees of freedom
Residual deviance: 4.8000  on 48  degrees of freedom
AIC: 44.729

Number of Fisher Scoring iterations: 2

)我为我的问题可能很简单而事先表示歉意。我试着阅读逻辑回归,并尝试跟随一些例子。但我一直在努力寻找解决我的特殊情况的答案)

非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2019-08-04 13:24:25

根据Gregor的上述评论,人们可以将其解释为一个编程问题。如果省略了family = binomial,函数glm()将使用默认的family = gaussian,这意味着一个标识链接函数,并假定为正常的同方差错误。另见?glm

这里可能违反了正常和/或同频误差的假设。因此,这里显示的第二个模型的标准误差和p值可能是不正确的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46651188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档