文章/答案/技术大牛

发布

社区首页 >问答首页 >具有范畴预测和交互作用的二项logistic回归(二项式家庭论证和p-值差异)

问具有范畴预测和交互作用的二项logistic回归(二项式家庭论证和p-值差异)
EN

Stack Overflow用户

提问于 2017-10-09 16:38:43

回答 1查看 636关注 0票数 0

当我在glm模型中使用交互作用加上家庭=二项式论点时，以及当我忽略它时，我有一个关于意义和意义差异的问题。我对logistic回归非常陌生，过去我只做过更简单的线性回归。

我有一个关于树木生长年轮的观测数据集，其中包含的两个分类解释变量(处理和Origin)。处理变量为试验干旱处理，有四个层次(对照、第一干旱、第二干旱和两个干旱)。原产地变量有三个级别，并引用树的起源(给定代码颜色来表示不同的来源，如红色、黄色和蓝色)。我观察到是否存在生长环(1 =生长环存在，0=无生长环)。

在我的例子中，我感兴趣的是治疗的效果，起源的效果，以及治疗和起源的可能相互作用。

结果表明，二项logistic回归是分析该数据集的一种较好的方法。(希望这是合适的？也许有更好的方法？)

我有n=5 (5次观察，每次结合治疗的起源。例如，控制处理蓝源树的生长年轮观测5次，控制处理黄源树观测5次等。因此，在数据集中总共有60个生长环的观测结果。

在R中，我使用的代码是glm()函数。我将其设置为: growthring_model <- glm(growthringobs ~热处理+原产地+处理: Origin，data = growthringdata，family = binomial(link = "logit"))

我已经考虑了我的解释变量，所以控制处理和蓝色原始树是我的参考。

我注意到的是，当我将“族=二项式”参数从代码中去掉时，它就给出了p-值，在数据的结果下，我可以合理地预期它的值。但是，当我添加“族=二项式”参数时，p值是1或非常接近1(例如，1、0.98、0.99 )。这听起来很奇怪。我可以看到它的重要性很低，但所有的数值都接近1，这让我对我的实际数据感到怀疑。如果我不使用“族=二项式”参数来运行模型，那么我得到的p值似乎更有意义(尽管它们仍然相对较高/微不足道)。

，有人能帮助我理解二项式论点是如何改变我的结果的吗？(我知道它指的是分布，即我的观测值是1还是0)它在模型中到底发生了什么变化？这是小样本的结果吗？我的密码里有什么东西吗？也许那些非常高的价值观是正确的(或不正确？)

这里宣读了我的模型摘要，并给出了二项式的论点: Call: glm(公式=增长~治疗+开始+治疗:开始，家庭=二项式(链接= "logit")，data =增长数据)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.79412  -0.00005  -0.00005  -0.00005   1.79412  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                          -2.057e+01  7.929e+03  -0.003    0.998
TreatmentFirst Drought               -9.931e-11  1.121e+04   0.000    1.000
TreatmentSecond Drought               1.918e+01  7.929e+03   0.002    0.998
TreatmentTwo Droughts                -1.085e-10  1.121e+04   0.000    1.000
OriginYellow                          1.918e+01  7.929e+03   0.002    0.998
OriginRed                            -1.045e-10  1.121e+04   0.000    1.000
TreatmentFirst Drought:OriginYellow  -1.918e+01  1.373e+04  -0.001    0.999
TreatmentSecond Drought:OriginYellow -1.739e+01  7.929e+03  -0.002    0.998
TreatmentTwo Droughts:OriginYellow   -1.918e+01  1.373e+04  -0.001    0.999
TreatmentFirst Drought:OriginRed      1.038e-10  1.586e+04   0.000    1.000
TreatmentSecond Drought:OriginRed     2.773e+00  1.121e+04   0.000    1.000
TreatmentTwo Droughts:OriginRed       2.016e+01  1.373e+04   0.001    0.999

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 57.169  on 59  degrees of freedom
Residual deviance: 28.472  on 48  degrees of freedom
AIC: 52.472

Number of Fisher Scoring iterations: 19

这里宣读了我的模型总结，没有二项式的论点:调用:glm(公式=增长~治疗+开始+治疗:原产地，数据=增长数据)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-0.8     0.0     0.0     0.0     0.8  

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)  
(Intercept)                          -4.278e-17  1.414e-01   0.000           1.0000  
TreatmentFirst Drought                3.145e-16  2.000e-01   0.000   1.0000  
TreatmentSecond Drought               2.000e-01  2.000e-01   1.000   0.3223  
TreatmentTwo Droughts                 1.152e-16  2.000e-01   0.000   1.0000  
OriginYellow                          2.000e-01  2.000e-01   1.000   0.3223  
OriginRed                             6.879e-17  2.000e-01   0.000   1.0000  
TreatmentFirst Drought:OriginYellow  -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentSecond Drought:OriginYellow  2.000e-01  2.828e-01   0.707   0.4829  
TreatmentTwo Droughts:OriginYellow   -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentFirst Drought:OriginRed     -3.243e-16  2.828e-01   0.000   1.0000  
TreatmentSecond Drought:OriginRed     6.000e-01  2.828e-01   2.121   0.0391 *
TreatmentTwo Droughts:OriginRed       4.000e-01  2.828e-01   1.414   0.1638  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 0.1)

    Null deviance: 8.9833  on 59  degrees of freedom
Residual deviance: 4.8000  on 48  degrees of freedom
AIC: 44.729

Number of Fisher Scoring iterations: 2

)我为我的问题可能很简单而事先表示歉意。我试着阅读逻辑回归，并尝试跟随一些例子。但我一直在努力寻找解决我的特殊情况的答案)

非常感谢。

logistic-regression

glm

p-value

回答 1

Stack Overflow用户

发布于 2019-08-04 13:24:25

根据Gregor的上述评论，人们可以将其解释为一个编程问题。如果省略了family = binomial，函数glm()将使用默认的family = gaussian，这意味着一个标识链接函数，并假定为正常的同方差错误。另见?glm。

这里可能违反了正常和/或同频误差的假设。因此，这里显示的第二个模型的标准误差和p值可能是不正确的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46651188

复制

相似问题

问具有范畴预测和交互作用的二项logistic回归(二项式家庭论证和p-值差异)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有范畴预测和交互作用的二项logistic回归(二项式家庭论证和p-值差异)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有范畴预测和交互作用的二项logistic回归(二项式家庭论证和p-值差异)
EN