我有以下数据帧:
> testing
# A tibble: 27,507 x 2
type mmr
<fct> <dbl>
1 Public 100
2 Public 100
3 Private 100
4 Public 100
5 Public 100
6 Public 100
7 Public 100
8 Public 100
9 Public 100
10 Public 100
# ... with 27,497 more rows此数据帧具有以下计数:
# A tibble: 2 x 2
type n
<fct> <int>
1 Private 6815
2 Public 20692我希望将Public和Private扩展到变量中,但是它们需要具有相等的计数才能做到这一点。有没有办法使用DPLYR软件包对6000个私有和6000个公共样本进行采样,这样我就可以执行分布函数了?
谢谢
发布于 2020-04-26 08:48:48
您可以使用sample_n:
library(dplyr)
data <- testing %>% group_by(type) %>% sample_n(6000)请注意,pivot_wider已经替换了spread,因此要获取宽格式的数据,您可以使用
data %>%
group_by(a) %>% mutate(row = row_number()) %>%
tidyr::pivot_wider(names_from = a, values_from = b) %>%
#tidyr::spread(a, b) %>%
select(-row)https://stackoverflow.com/questions/61434453
复制相似问题