我有一个数据表,dt,它看起来像
location year value
NYC 2026 1
NYC 2026 2
NYC 2026 3
NYC 2026 4
NYC 2026 5
LA 2026 6
LA 2026 7
LA 2026 8
LA 2026 9
LA 2026 10我想按city和year对它们进行分组,并在每个组的value列中找到第二个最小的元素,其中所需的结果如下:
location year value
NYC 2026 2
LA 2026 7dt %>% grou_by(location, year) %>% nth(value, 2)
不会起作用的。任何帮助都是非常感谢的。
上面的数据表可以通过以下方式创建:
dt <- structure(list(location = c("NYC", "NYC", "NYC","NYC", "NYC",
"LA", "LA", "LA", "LA", "LA"),
year = c(2026, 2026, 2026, 2026, 2026,
2026, 2026, 2026, 2026, 2026),
value = c(1, 2, 3, 4, 5,
6, 7, 8, 9, 10)),
class = "data.table",
row.names = c(NA, -10L))发布于 2019-05-11 05:13:27
一种dplyr的可能性可能是:
df %>%
group_by(location) %>%
arrange(value) %>%
slice(2)这里它按"location“列分组,按"value”列排列值,然后保留第二个元素。
location year value
<chr> <int> <int>
1 LA 2026 7
2 NYC 2026 2或者,如果"value“列中的值可能重复,则可以执行以下操作:
df %>%
group_by(location) %>%
distinct(value, .keep_all = TRUE) %>%
arrange(value) %>%
slice(2)或者使用filter()而不是slice()
df %>%
group_by(location) %>%
arrange(value) %>%
filter(row_number() == 2)考虑到可能的重复,也是相同的:
df %>%
group_by(location) %>%
distinct(value, .keep_all = TRUE) %>%
arrange(value) %>%
filter(row_number() == 2)或者使用filter()和dense_rank()
df %>%
group_by(location) %>%
filter(dense_rank(value) == 2)考虑到可能的重复,也是相同的:
df %>%
group_by(location) %>%
distinct(value, .keep_all = TRUE) %>%
filter(dense_rank(value) == 2)发布于 2019-05-11 05:16:40
在group_by中使用summarize
> dt %>% group_by(location, year) %>% arrange(value) %>% summarize(value = nth(value, 2))
# A tibble: 2 x 3
# Groups: location [2]
location year value
<chr> <dbl> <dbl>
1 LA 2026 7
2 NYC 2026 2发布于 2019-05-11 05:40:39
因为你只需要第二个元素,所以不完全排序不是不可能的。我不知道dplyr或data.table是否支持它,但它支持基数R排序(有限制的选项),例如。一些类似的东西
with(dt, lapply(split(dt, interaction(location, year)),
function(x) sort.int(x$value, partial=2)))我怀疑它是否会比dplyr或data.table更快,即使它们是完全排序的优化,但如果效率是一个问题,也许这将是值得关注的。
哦,你也可以先排序,然后分组,然后简单地从每个分组中选择第n个值,这样就可以为每个组保存多个排序例程。
https://stackoverflow.com/questions/56084877
复制相似问题