我有个问题。我的数据集包含有关网球运动员的信息,以及他们在积极的职业生涯中每个赛季参加的比赛数量。
Name Season Games
Nadal 2015 84
Novak 2017 14
Nadal 2016 88
Federer 2018 75
Nadal 2010 45
.
.
.我想要创建一个新的数据集,其中只包括玩了五年以上的球员。
我想,我必须以某种方式总结球员,然后过滤他们。请问我怎么做?
发布于 2019-12-06 18:59:38
使用dplyr,您可以计数和过滤数据。例如,我创建了这个虚拟数据文件:
df = data.frame(P = c("A","A","A","A","A","A","A","B","B","C","C","C","C"),
y = c(1,4,5,8,7,4,2,3,4,8,7,4,1))
library(dplyr)
df %>% group_by(P) %>% add_count(P) %>% filter(n > 5)
# A tibble: 7 x 3
# Groups: P [1]
P y n
<fct> <dbl> <int>
1 A 1 7
2 A 4 7
3 A 5 7
4 A 8 7
5 A 7 7
6 A 4 7
7 A 2 7使用您的数据,您可以尝试:
df %>% group_by(Name) %>% add_count(Name) %>% filter(n >= 5)https://stackoverflow.com/questions/59218717
复制相似问题