首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >双样本t检验

双样本t检验
EN

Stack Overflow用户
提问于 2022-10-18 03:41:41
回答 1查看 52关注 0票数 1

我有这样的数据

代码语言:javascript
复制
df <- structure(list(ID = c(243, 292, 317, 388, 398, 404, 463, 473, 
842, 844, 858, 862, 869, 871, 879, 888), Zone = c(1, 1, 1, 1, 
1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2), Gen = c("Male", "Male", 
"Other Gender Identity", "Male", "Male", "Male", "Male", "Female", 
"Female", "Male", "Female", "Male", "Male", "Male", "Male", "Female"
), Month_Inc = c("< $1,500", "< $1,500", "< $1,500", "$1,500 - $1,999", 
"$1,500 - $1,999", "< $1,500", "< $1,500", "< $1,500", "$1,500 - $1,999", 
"$2,000 - $2,499", "$1,500 - $1,999", "< $1,500", "$2,500 - $2,999", 
"< $1,500", "< $1,500", "< $1,500")), row.names = c(NA, -16L), class = c("tbl_df", 
"tbl", "data.frame"))

我需要做的是检验这两个地区的女性比例是否存在统计差异。我也需要对收入水平进行测试。

我需要对两个区域的Gen~Zone Ho = %female=%male做t检验,H1 =%女性!= %男性在这两个区域

同样,对于Month_Inc ~ Zone也是如此!

我尝试了以下代码

代码语言:javascript
复制
t.test(Gen ~ Zone, mu = 0, alt = "two.sided",
       conf=  0.95, paired = FALSE, ver.equal = FALSE, 
       data= df)

但是,我哪儿也不会去!我该怎么改正?我正在考虑一些与数据类型问题有关的事情,但我不能确定。

谢谢你的帮忙!

EN

回答 1

Stack Overflow用户

发布于 2022-10-18 04:46:37

这里有一个你忽略的统计问题。注意,你在调查两个地区女性比例的差异。我会考虑Fisher的精确检验,这是一个方便的非参数检验,当样本大小不是很大。在R中,prop.test()函数应该工作得很好。首先,我们给这个函数一个成功的向量,它只是每个区域内女性数量的计数。下一个参数是样本大小的向量。

代码语言:javascript
复制
# Let's calculate the counts for the different zone-gender pairs

df |>
  group_by(Zone, Gen) |>
  summarize(Total = n())

# A tibble: 5 × 3
# Groups:   Zone [2]
   Zone Gen                   Total
  <dbl> <chr>                 <int>
1     1 Female                    1
2     1 Male                      6
3     1 Other Gender Identity     1
4     2 Female                    3
5     2 Male                      5

因为我正在处理您的数据子集,所以我可以直接查看计数,并将它们输入prop.test()函数。在这里,我们看到1女性在第1区和3女性在第2区。

代码语言:javascript
复制
prop.test(x = c(1, 3), n = c(8, 8), p = NULL, alternative = "two.sided", correct = TRUE)

    2-sample test for equality of proportions with continuity correction

data:  c(1, 3) out of c(8, 8)
X-squared = 0.33333, df = 1, p-value = 0.5637
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.7812791  0.2812791
sample estimates:
prop 1 prop 2 
 0.125  0.375

请忽略任何关于X平方近似的警告信息。因为我们用的是非常小的细胞大小,所以估计值会很差。我不会担心的。

另一方面,如果你对男女人口比例不平等感兴趣,那么你可以在每个区域内单独进行这个测试。

现在,让我们谈谈个人收入。在需要数字值的情况下,您为R提供字符值。要用标准的t检验来取得一些可评价的结果,我们必须作出明智的妥协.假设您想要估计两个离散/独立组之间的平均收入差异。意见可能不同,但在间隔之间使用中点并不少见。例如,1,500至1,999美元之间的中点是1,750美元。你会为每个人的观察做这个。虽然这只是一个近似,你现在可以计算一个中心趋势。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74105455

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档