文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用tidycensus和tidyverse准确地聚合误差值的子组差值？

问如何使用tidycensus和tidyverse准确地聚合误差值的子组差值？
EN

Stack Overflow用户

提问于 2021-06-01 06:45:16

回答 2查看 71关注 0票数 0

我正在尝试使用R中的美国社区调查计算MN中每个县的20岁以下人口。使用Tidycensus，我知道这可以使用R中每个种族和年龄组的B01001H变量来完成。但是，我需要将每个种族组中20岁以下人口的所有变量汇总在一起。根据该网页(https://www.census.gov/content/dam/Census/library/publications/2018/acs/acs_general_handbook_2018_ch08.pdf)，虽然聚合估计值仅仅是每个子组值的总和，但聚合误差幅度需要我计算以下公式：

MOE = sqrt(moe_1^2 + moe_2^2 + ... + moe_n^2)

对于子组内的每个MOE。那么，我如何准确地使用tidyverse来准确计算这个聚合的MOE值呢？

下面是我的代码到目前为止的样子：

## age race 
age_vars_male = c(w1="B01001H_003",w2="B01001H_004",w3="B01001H_005",w4="B01001H_006",
                  b1="B01001B_003",b2="B01001B_004",b3="B01001B_005",b4="B01001B_006",
                  AN1="B01001C_003",AN2="B01001C_004",AN3="B01001C_005",AN4="B01001C_006",
                  AS1="B01001D_003",AS2="B01001D_004",AS3="B01001D_005",AS4="B01001D_006",
                  H1="B01001I_003",H2="B01001I_004",H3="B01001I_005",H4="B01001I_006")

## obtaining variables listed above for MN counties
pop_un20 <- get_acs(geography = "county",
                     variables = age_vars_male,
                     state = "MN",
                     geometry=T)

pop_un20 = pop_un20 %>% mutate(Race = case_when(variable %in% c("w1","w2","w3","w4") ~ "White",
                                                    variable %in% c("b1","b2","b3","b4") ~ "Black",
                                                    variable %in% c("AN1","AN2","AN3","AN4") ~"AI/AN",
                                                    variable %in% c("AS1","AS2","AS3","AS4") ~"Asian",
                                                    variable %in% c("H1","H2","H3","H4") ~"Hispanic/Latino"),
                               moe_sqrd = moe^2) %>% select(-variable)


moe_aggregate = pop_un20 %>% group_by(NAME,Race) %>% summarise(moe_aggregate = sqrt(sum(moe_sqrd,na.rm = T))) %>% st_set_geometry(NULL)
est_aggregate = pop_un20 %>% group_by(NAME,Race) %>% summarise(estimate_aggregate = sum(estimate,na.rm = T)) %>% st_set_geometry(NULL)


pop_under20  = pop_un20 %>% right_join(moe_aggregate, by = c("NAME","Race")) %>% right_join(est_aggregate, by = c("NAME","Race")) %>%
  select(-estimate,-moe,moe_sqrd)

我已经计算了我所要求的，首先为moe平方创建了一个列，然后取每个组和种族总和的平方根。然而，有没有办法一下子做到这一点呢？

tidyverse

tidycensus

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-06-04 19:28:50

tidycensus有一个函数moe_sum()，that does this for you。调整你的代码：

library(tidycensus)
library(tidyverse)

age_vars_male = c(w1="B01001H_003",w2="B01001H_004",w3="B01001H_005",w4="B01001H_006",
                  b1="B01001B_003",b2="B01001B_004",b3="B01001B_005",b4="B01001B_006",
                  AN1="B01001C_003",AN2="B01001C_004",AN3="B01001C_005",AN4="B01001C_006",
                  AS1="B01001D_003",AS2="B01001D_004",AS3="B01001D_005",AS4="B01001D_006",
                  H1="B01001I_003",H2="B01001I_004",H3="B01001I_005",H4="B01001I_006")

## obtaining variables listed above for MN counties
pop_un20 <- get_acs(geography = "county",
                    variables = age_vars_male,
                    state = "MN")

pop_un20_grouped <- pop_un20 %>% 
  mutate(Race = case_when(variable %in% c("w1","w2","w3","w4") ~ "White",
                          variable %in% c("b1","b2","b3","b4") ~ "Black",
                          variable %in% c("AN1","AN2","AN3","AN4") ~"AI/AN",
                          variable %in% c("AS1","AS2","AS3","AS4") ~"Asian",
                          variable %in% c("H1","H2","H3","H4") ~"Hispanic/Latino")) %>%
           group_by(NAME, Race) %>%
           summarize(group_estimate = sum(estimate, na.rm = TRUE),
                     group_moe = moe_sum(moe = moe, estimate = estimate, na.rm = TRUE))

pop_un20_grouped

# A tibble: 435 x 4
# Groups:   NAME [87]
   NAME                     Race            group_estimate group_moe
   <chr>                    <chr>                    <dbl>     <dbl>
 1 Aitkin County, Minnesota AI/AN                       70      24.5
 2 Aitkin County, Minnesota Asian                        3      14.9
 3 Aitkin County, Minnesota Black                        5      15.1
 4 Aitkin County, Minnesota Hispanic/Latino             71      22.6
 5 Aitkin County, Minnesota White                     1223      59.9
 6 Anoka County, Minnesota  AI/AN                      322      97.9
 7 Anoka County, Minnesota  Asian                     1983     219. 
 8 Anoka County, Minnesota  Black                     4015     303. 
 9 Anoka County, Minnesota  Hispanic/Latino           3176     219. 
10 Anoka County, Minnesota  White                    30557     478. 
# … with 425 more rows

票数 1

Stack Overflow用户

发布于 2021-06-01 11:36:08

您可以使用mutate直接在数据中添加新列，而不是使用summarise和join。

library(dplyr)

pop_under20 <- pop_un20 %>% 
  group_by(NAME,Race) %>% 
  mutate(moe_aggregate = sqrt(sum(moe_sqrd,na.rm = TRUE)), 
         estimate_aggregate = sum(estimate,na.rm = TRUE))

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67780891

复制

相似问题

问如何使用tidycensus和tidyverse准确地聚合误差值的子组差值？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用tidycensus和tidyverse准确地聚合误差值的子组差值？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用tidycensus和tidyverse准确地聚合误差值的子组差值？
EN