首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R中每组的k_th最小元素

R中每组的k_th最小元素
EN

Stack Overflow用户
提问于 2019-05-11 05:10:22
回答 3查看 199关注 0票数 3

我有一个数据表,dt,它看起来像

代码语言:javascript
复制
   location year value
       NYC 2026     1
       NYC 2026     2
       NYC 2026     3
       NYC 2026     4
       NYC 2026     5
        LA 2026     6
        LA 2026     7
        LA 2026     8
        LA 2026     9
        LA 2026    10

我想按cityyear对它们进行分组,并在每个组的value列中找到第二个最小的元素,其中所需的结果如下:

代码语言:javascript
复制
   location year value
        NYC  2026     2
         LA  2026     7

dt %>% grou_by(location, year) %>% nth(value, 2)

不会起作用的。任何帮助都是非常感谢的。

上面的数据表可以通过以下方式创建:

代码语言:javascript
复制
dt <- structure(list(location = c("NYC", "NYC", "NYC","NYC", "NYC", 
                                   "LA", "LA", "LA", "LA", "LA"), 
                 year = c(2026, 2026, 2026, 2026, 2026,
                          2026, 2026, 2026, 2026, 2026),
                 value = c(1, 2, 3, 4, 5,
                           6, 7, 8, 9, 10)),
                 class = "data.table", 
                 row.names = c(NA, -10L))
EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-05-11 05:13:27

一种dplyr的可能性可能是:

代码语言:javascript
复制
df %>%
 group_by(location) %>%
 arrange(value) %>%
 slice(2)

这里它按"location“列分组,按"value”列排列值,然后保留第二个元素。

代码语言:javascript
复制
  location  year value
  <chr>    <int> <int>
1 LA        2026     7
2 NYC       2026     2

或者,如果"value“列中的值可能重复,则可以执行以下操作:

代码语言:javascript
复制
df %>%
 group_by(location) %>%
 distinct(value, .keep_all = TRUE) %>%
 arrange(value) %>%
 slice(2)

或者使用filter()而不是slice()

代码语言:javascript
复制
df %>%
 group_by(location) %>%
 arrange(value) %>%
 filter(row_number() == 2)

考虑到可能的重复,也是相同的:

代码语言:javascript
复制
df %>%
 group_by(location) %>%
 distinct(value, .keep_all = TRUE) %>%
 arrange(value) %>%
 filter(row_number() == 2)

或者使用filter()dense_rank()

代码语言:javascript
复制
df %>%
 group_by(location) %>%
 filter(dense_rank(value) == 2)

考虑到可能的重复,也是相同的:

代码语言:javascript
复制
df %>%
 group_by(location) %>%
 distinct(value, .keep_all = TRUE) %>%
 filter(dense_rank(value) == 2)
票数 6
EN

Stack Overflow用户

发布于 2019-05-11 05:16:40

group_by中使用summarize

代码语言:javascript
复制
> dt %>% group_by(location, year) %>% arrange(value) %>%  summarize(value = nth(value, 2))
# A tibble: 2 x 3
# Groups:   location [2]
  location  year value
  <chr>    <dbl> <dbl>
1 LA        2026     7
2 NYC       2026     2
票数 4
EN

Stack Overflow用户

发布于 2019-05-11 05:40:39

因为你只需要第二个元素,所以不完全排序不是不可能的。我不知道dplyrdata.table是否支持它,但它支持基数R排序(有限制的选项),例如。一些类似的东西

代码语言:javascript
复制
with(dt, lapply(split(dt, interaction(location, year)), 
  function(x) sort.int(x$value, partial=2)))

我怀疑它是否会比dplyrdata.table更快,即使它们是完全排序的优化,但如果效率是一个问题,也许这将是值得关注的。

哦,你也可以先排序,然后分组,然后简单地从每个分组中选择第n个值,这样就可以为每个组保存多个排序例程。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56084877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档