文章/答案/技术大牛

发布

问双样本t检验
EN

Stack Overflow用户

提问于 2022-10-18 03:41:41

回答 1查看 52关注 0票数 1

我有这样的数据

df <- structure(list(ID = c(243, 292, 317, 388, 398, 404, 463, 473, 
842, 844, 858, 862, 869, 871, 879, 888), Zone = c(1, 1, 1, 1, 
1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2), Gen = c("Male", "Male", 
"Other Gender Identity", "Male", "Male", "Male", "Male", "Female", 
"Female", "Male", "Female", "Male", "Male", "Male", "Male", "Female"
), Month_Inc = c("< $1,500", "< $1,500", "< $1,500", "$1,500 - $1,999", 
"$1,500 - $1,999", "< $1,500", "< $1,500", "< $1,500", "$1,500 - $1,999", 
"$2,000 - $2,499", "$1,500 - $1,999", "< $1,500", "$2,500 - $2,999", 
"< $1,500", "< $1,500", "< $1,500")), row.names = c(NA, -16L), class = c("tbl_df", 
"tbl", "data.frame"))

我需要做的是检验这两个地区的女性比例是否存在统计差异。我也需要对收入水平进行测试。

我需要对两个区域的Gen~Zone Ho = %female=%male做t检验，H1 =%女性!= %男性在这两个区域

同样，对于Month_Inc ~ Zone也是如此！

我尝试了以下代码

t.test(Gen ~ Zone, mu = 0, alt = "two.sided",
       conf=  0.95, paired = FALSE, ver.equal = FALSE, 
       data= df)

但是，我哪儿也不会去！我该怎么改正？我正在考虑一些与数据类型问题有关的事情，但我不能确定。

谢谢你的帮忙!

t-test

回答 1

Stack Overflow用户

发布于 2022-10-18 04:46:37

这里有一个你忽略的统计问题。注意，你在调查两个地区女性比例的差异。我会考虑Fisher的精确检验，这是一个方便的非参数检验，当样本大小不是很大。在R中，prop.test()函数应该工作得很好。首先，我们给这个函数一个成功的向量，它只是每个区域内女性数量的计数。下一个参数是样本大小的向量。

# Let's calculate the counts for the different zone-gender pairs

df |>
  group_by(Zone, Gen) |>
  summarize(Total = n())

# A tibble: 5 × 3
# Groups:   Zone [2]
   Zone Gen                   Total
  <dbl> <chr>                 <int>
1     1 Female                    1
2     1 Male                      6
3     1 Other Gender Identity     1
4     2 Female                    3
5     2 Male                      5

因为我正在处理您的数据子集，所以我可以直接查看计数，并将它们输入prop.test()函数。在这里，我们看到1女性在第1区和3女性在第2区。

prop.test(x = c(1, 3), n = c(8, 8), p = NULL, alternative = "two.sided", correct = TRUE)

    2-sample test for equality of proportions with continuity correction

data:  c(1, 3) out of c(8, 8)
X-squared = 0.33333, df = 1, p-value = 0.5637
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.7812791  0.2812791
sample estimates:
prop 1 prop 2 
 0.125  0.375

请忽略任何关于X平方近似的警告信息。因为我们用的是非常小的细胞大小，所以估计值会很差。我不会担心的。

另一方面，如果你对男女人口比例不平等感兴趣，那么你可以在每个区域内单独进行这个测试。

现在，让我们谈谈个人收入。在需要数字值的情况下，您为R提供字符值。要用标准的t检验来取得一些可评价的结果，我们必须作出明智的妥协.假设您想要估计两个离散/独立组之间的平均收入差异。意见可能不同，但在间隔之间使用中点并不少见。例如，1,500至1,999美元之间的中点是1,750美元。你会为每个人的观察做这个。虽然这只是一个近似，你现在可以计算一个中心趋势。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74105455

复制

相似问题

问双样本t检验
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问双样本t检验EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问双样本t检验
EN