我将文档(.csv)上传到项目中。有9列(9个变量)。在任务中说,有必要将一个变量(工资)分成几组(平均工资、中位数、峰度、标准差),但仍然需要指明性别(变量性别)和男人是否结婚(变量婚姻状况)。例如,有以下数据:
wages gender status ............
5000 M NO
3000 M Yes
4500 W NO
2000 M NO
3500 W Yes
6500 M NO
8000 W NO
.
.
.
.如果我们除以平均工资,则必须:1)对于身份不是(5000+2000+6500)的人,/3=4500
wages gender status
4500 M NO有什么方法可以做到这一点呢?
发布于 2018-03-26 01:24:27
如果我没有理解错的话,你是在寻找性别和地位的每一个独特组合的平均工资吗?如果是这样,您可以使用dplyr包。例如,如果您上传的数据是df。
library(dplyr)
library(e1071)
df <- data.frame(wages=c(5000, 3000, 4500, 2000, 3500, 6500, 8000),
gender=c('M', 'M', 'W', 'M', 'W', 'M', 'W'),
status=c('NO', 'YES', 'NO', 'NO', 'YES', 'NO', 'NO'))
df_out <- df %>%
group_by(gender, status) %>%
summarise(avg_wage = mean(wages),
median_val = median(wages),
st_dev= sd(wages),
kurt = kurtosis(wages))
df_out
# A tibble: 4 x 6
# Groups: gender [?]
gender status avg_wage median_val st_dev kurt
<fctr> <fctr> <dbl> <dbl> <dbl> <dbl>
1 M NO 4500 5000 2291.288 -2.333333
2 M YES 3000 3000 NA NaN
3 W NO 6250 6250 2474.874 -2.750000
4 W YES 3500 3500 NA NaNhttps://stackoverflow.com/questions/49478581
复制相似问题