文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么dplyr这么慢？

问为什么dplyr这么慢？
EN

Stack Overflow用户

提问于 2019-01-23 10:03:48

回答 1查看 2.9K关注 0票数 13

和大多数人一样，哈德利·韦翰以及他为R所做的一切给我留下了深刻的印象--所以我想我会把一些功能转移到他的tidyverse上……这么做了，我不禁想知道这一切有什么意义？

我的新dplyr函数是，比它们的基本功能要慢得多--我希望我做错了什么。我特别想从理解non-standard-evaluation所需的努力中获得一些回报。

那我做错什么了？为什么dplyr这么慢？

举个例子：

require(microbenchmark)
require(dplyr)

df <- tibble(
             a = 1:10,
             b = c(1:5, 4:0),
             c = 10:1)

addSpread_base <- function() {
    df[['spread']] <- df[['a']] - df[['b']]
    df
}

addSpread_dplyr <- function() df %>% mutate(spread := a - b)

all.equal(addSpread_base(), addSpread_dplyr())

microbenchmark(addSpread_base(), addSpread_dplyr(), times = 1e4)

时间安排结果：

Unit: microseconds
              expr     min      lq      mean median      uq       max neval
  addSpread_base()  12.058  15.769  22.07805  24.58  26.435  2003.481 10000
 addSpread_dplyr() 607.537 624.697 666.08964 631.19 636.291 41143.691 10000

因此，使用dplyr函数来转换数据需要花费大约30倍的时间--这肯定不是目的吗？

我想这可能太容易了--如果我们有一个更现实的例子，我们要添加一个列并分设置数据--那么dplyr就会非常出色--但这更糟糕。从下面的计时可以看出，这比基本方法慢了70倍。

# mutate and substitute
addSpreadSub_base <- function(df, col1, col2) {
    df[['spread']] <- df[['a']] - df[['b']]
    df[, c(col1, col2, 'spread')]
}

addSpreadSub_dplyr <- function(df, col1, col2) {
    var1 <- as.name(col1)
    var2 <- as.name(col2)
    qq <- quo(- var2)
    df %>% 
        mutate(spread := !!qq) %>% 
        select(!!var1, !!var2, spread)
}

all.equal(addSpreadSub_base(df, col1 = 'a', col2 = 'b'), 
          addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'))

microbenchmark(addSpreadSub_base(df, col1 = 'a', col2 = 'b'), 
               addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'), 
               times = 1e4)

结果：

Unit: microseconds
                                           expr      min       lq      mean   median       uq      max neval
  addSpreadSub_base(df, col1 = "a", col2 = "b")   22.725   30.610   44.3874   45.450   53.798  2024.35 10000
 addSpreadSub_dplyr(df, col1 = "a", col2 = "b") 2748.757 2837.337 3011.1982 2859.598 2904.583 44207.81 10000

dplyr

performance

回答 1

Stack Overflow用户

发布于 2019-01-23 13:18:23

这些是微秒，您的数据集有10行，除非您计划在数百万个10行的数据集上循环，否则您的基准测试几乎是无关紧要的(在这种情况下，我无法想象将它们作为第一步绑定在一起是不明智的)。

让我们使用一个更大的数据集，比如100万倍的数据集：

df <- tibble(
  a = 1:10,
  b = c(1:5, 4:0),
  c = 10:1)

df2 <- bind_rows(replicate(1000000,df,F))

addSpread_base <- function(df) {
  df[['spread']] <- df[['a']] - df[['b']]
  df
}
addSpread_dplyr  <- function(df) df %>% mutate(spread = a - b)

microbenchmark::microbenchmark(
  addSpread_base(df2), 
  addSpread_dplyr(df2),
  times = 100)
# Unit: milliseconds
#                 expr      min       lq     mean   median       uq      max neval cld
# addSpread_base(df2) 25.85584 26.93562 37.77010 32.33633 35.67604 170.6507   100   a
# addSpread_dplyr(df2) 26.91690 27.57090 38.98758 33.39769 39.79501 182.2847   100   a

仍然相当快，而且差别不大。

至于你得到的结果的“原因”，这是因为你使用的是一个更复杂的函数，所以它有间接费用。

评论者指出，dplyr不太努力地快速，也许与data.table相比确实如此，界面是首要考虑的问题，但作者也一直在努力提高速度。例如，混合计算允许(如果我正确的话)在使用公共函数聚合数据时直接在分组数据上执行C代码，这可能比基本代码快得多，但是简单的代码在使用简单函数时总是运行得更快。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54324620

复制

相似问题

问为什么dplyr这么慢？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么dplyr这么慢？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么dplyr这么慢？
EN