当我在glm模型中使用交互作用加上家庭=二项式论点时,以及当我忽略它时,我有一个关于意义和意义差异的问题。我对logistic回归非常陌生,过去我只做过更简单的线性回归。
我有一个关于树木生长年轮的观测数据集,其中包含的两个分类解释变量(处理和Origin)。处理变量为试验干旱处理,有四个层次(对照、第一干旱、第二干旱和两个干旱)。原产地变量有三个级别,并引用树的起源(给定代码颜色来表示不同的来源,如红色、黄色和蓝色)。我观察到是否存在生长环(1 =生长环存在,0=无生长环)。
在我的例子中,我感兴趣的是治疗的效果,起源的效果,以及治疗和起源的可能相互作用。
结果表明,二项logistic回归是分析该数据集的一种较好的方法。(希望这是合适的?也许有更好的方法?)
我有n=5 (5次观察,每次结合治疗的起源。例如,控制处理蓝源树的生长年轮观测5次,控制处理黄源树观测5次等。因此,在数据集中总共有60个生长环的观测结果。
在R中,我使用的代码是glm()函数。我将其设置为: growthring_model <- glm(growthringobs ~热处理+原产地+处理: Origin,data = growthringdata,family = binomial(link = "logit"))
我已经考虑了我的解释变量,所以控制处理和蓝色原始树是我的参考。
我注意到的是,当我将“族=二项式”参数从代码中去掉时,它就给出了p-值,在数据的结果下,我可以合理地预期它的值。但是,当我添加“族=二项式”参数时,p值是1或非常接近1(例如,1、0.98、0.99 )。这听起来很奇怪。我可以看到它的重要性很低,但所有的数值都接近1,这让我对我的实际数据感到怀疑。如果我不使用“族=二项式”参数来运行模型,那么我得到的p值似乎更有意义(尽管它们仍然相对较高/微不足道)。
,有人能帮助我理解二项式论点是如何改变我的结果的吗?(我知道它指的是分布,即我的观测值是1还是0)它在模型中到底发生了什么变化?这是小样本的结果吗?我的密码里有什么东西吗?也许那些非常高的价值观是正确的(或不正确?)
这里宣读了我的模型摘要,并给出了二项式的论点: Call: glm(公式=增长~治疗+开始+治疗:开始,家庭=二项式(链接= "logit"),data =增长数据)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.79412 -0.00005 -0.00005 -0.00005 1.79412
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.057e+01 7.929e+03 -0.003 0.998
TreatmentFirst Drought -9.931e-11 1.121e+04 0.000 1.000
TreatmentSecond Drought 1.918e+01 7.929e+03 0.002 0.998
TreatmentTwo Droughts -1.085e-10 1.121e+04 0.000 1.000
OriginYellow 1.918e+01 7.929e+03 0.002 0.998
OriginRed -1.045e-10 1.121e+04 0.000 1.000
TreatmentFirst Drought:OriginYellow -1.918e+01 1.373e+04 -0.001 0.999
TreatmentSecond Drought:OriginYellow -1.739e+01 7.929e+03 -0.002 0.998
TreatmentTwo Droughts:OriginYellow -1.918e+01 1.373e+04 -0.001 0.999
TreatmentFirst Drought:OriginRed 1.038e-10 1.586e+04 0.000 1.000
TreatmentSecond Drought:OriginRed 2.773e+00 1.121e+04 0.000 1.000
TreatmentTwo Droughts:OriginRed 2.016e+01 1.373e+04 0.001 0.999
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 57.169 on 59 degrees of freedom
Residual deviance: 28.472 on 48 degrees of freedom
AIC: 52.472
Number of Fisher Scoring iterations: 19这里宣读了我的模型总结,没有二项式的论点:调用:glm(公式=增长~治疗+开始+治疗:原产地,数据=增长数据)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.8 0.0 0.0 0.0 0.8
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.278e-17 1.414e-01 0.000 1.0000
TreatmentFirst Drought 3.145e-16 2.000e-01 0.000 1.0000
TreatmentSecond Drought 2.000e-01 2.000e-01 1.000 0.3223
TreatmentTwo Droughts 1.152e-16 2.000e-01 0.000 1.0000
OriginYellow 2.000e-01 2.000e-01 1.000 0.3223
OriginRed 6.879e-17 2.000e-01 0.000 1.0000
TreatmentFirst Drought:OriginYellow -2.000e-01 2.828e-01 -0.707 0.4829
TreatmentSecond Drought:OriginYellow 2.000e-01 2.828e-01 0.707 0.4829
TreatmentTwo Droughts:OriginYellow -2.000e-01 2.828e-01 -0.707 0.4829
TreatmentFirst Drought:OriginRed -3.243e-16 2.828e-01 0.000 1.0000
TreatmentSecond Drought:OriginRed 6.000e-01 2.828e-01 2.121 0.0391 *
TreatmentTwo Droughts:OriginRed 4.000e-01 2.828e-01 1.414 0.1638
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.1)
Null deviance: 8.9833 on 59 degrees of freedom
Residual deviance: 4.8000 on 48 degrees of freedom
AIC: 44.729
Number of Fisher Scoring iterations: 2)我为我的问题可能很简单而事先表示歉意。我试着阅读逻辑回归,并尝试跟随一些例子。但我一直在努力寻找解决我的特殊情况的答案)
非常感谢。
发布于 2019-08-04 13:24:25
根据Gregor的上述评论,人们可以将其解释为一个编程问题。如果省略了family = binomial,函数glm()将使用默认的family = gaussian,这意味着一个标识链接函数,并假定为正常的同方差错误。另见?glm。
这里可能违反了正常和/或同频误差的假设。因此,这里显示的第二个模型的标准误差和p值可能是不正确的。
https://stackoverflow.com/questions/46651188
复制相似问题