我正在运行一个基于包含许多变量的大型数据集的gam模型。我的响应变量是每年秋季/秋季牛群“招募”的水平。这是根据60年来每年秋季/秋季的小鹿:雌性比例计算得出的。
我的问题是,有很多年份和研究地点只记录了1- 10个女性。这意味着该比率的稳健性是不可信的。例如,如果看到一只雌性和一只幼鹿,它的招聘率为100%,但如果他们看到多一只雌性,则会下降50%!
我需要告诉模型,样本量较小的年份/研究站点的权重应该比样本量较大的站点的权重小,因为这些较小的样本量无疑会影响结果。

上图是每年观察到的雌蜘蛛的图表和柱状图。
我的模型如下:
gamFIN <- gam(Fw.FratioFall
~ s(year)
+ s(percentage_woody_coverage)
+ s(kmRoads.km2)
+ s(WELLS_ACTIVEinsideD)
+ s(d3)
+ s(WT_DEER_springsurveys)
+ s(BadlandsCoyote.1000_mi)
+ s(Average_mintemp_winter, BadlandsCoyote.1000_mi)
+ s(BadlandsCoyote.1000_mi, WELLS_ACTIVEinsideD)
+ s(BadlandsCoyote.1000_mi, d3)
+ s(YEAR, bs = "re") + s(StudyArea, bs = "re"), method = "REML", select = T, data = mydata)我应该如何告诉模型根据它们所基于的样本大小来加权我的响应变量。
发布于 2019-05-09 07:47:55
不要将此作为您的结果的比率。取而代之的是,将小鹿数量建模为您的结果,并使用公式的RH值通过offset()项对雌性数量进行建模。你应该用小鹿数量的对数来补偿。因此,公式将如下所示:
Fawns
~ s(year)
+ all_those_smooth_terms
+ offset( lnFemale_counts)gam模型有一个隐式的日志链接,这是记录女性计数的原因。
编辑(加文是正确的。gam的默认值不是线性链接):
gamFIN <- gam(FawnFall ~ s(year) + s(percentage_woody_coverage) + s(kmRoads.km2) +
s(WELLS_ACTIVEinsideD) + s(d3) + s(WT_DEER_springsurveys) +
s(BadlandsCoyote.1000_mi) + s(Average_mintemp_winter, BadlandsCoyote.1000_mi) +
s(BadlandsCoyote.1000_mi, WELLS_ACTIVEinsideD) + s(BadlandsCoyote.1000_mi, d3) +
s(YEAR, bs = "re") + s(StudyArea, bs = "re") + offset(FemaleFall),
family="poisson", method = "REML", select = T, data = mydata)https://stackoverflow.com/questions/56050324
复制相似问题