文章/答案/技术大牛

发布

社区首页 >问答首页 >对data.table (R)中的列组合执行行向非向量化函数

问对data.table (R)中的列组合执行行向非向量化函数
EN

Stack Overflow用户

提问于 2022-01-02 16:42:42

回答 2查看 147关注 0票数 0

我在R (~200,000)条目中有一个非常大的data.table，我希望对每一行执行一个非向量化函数。这个函数需要来自这个data.table的两列的输入。一个列的值被链接到另一个列表，每个成员都包含大约1,000,000个数字。下面是一个使用mtcars的简化案例

#setup a fake list for my function call    
gears <- mtcars %>% arrange(gear) %>% pull(gear) %>% unique
gear_lst <- lapply(gears, function(x){rnorm(1000000, mean = x**2, sd = x*2)}) %>% setNames(.,gears)  

#make a mega data table     
mega_mtcars <- sapply(mtcars, rep.int, times = 10000) %>% as.data.table

#this is the function I want to call    
my_function <- function(x,y){
    sum(x > gear_lst[[y]])
}

# rowwise call is low
out <- mega_mtcars %>% mutate(gear_c = as.character(gear)) %>% rowwise %>% mutate(out = my_function(mpg, gear_c))

我尝试的一件事是为每个gear_lst条目添加一个嵌套的gear列，这样我就能够执行向量化的函数。但是，由于列表很大，内存无法创建这样的数据结构。

Update：@akrun提供了一些方法，我无法用我的原始mega_mtcars测试它们，因为它太大了。我将它缩小了100倍，下面是到目前为止的性能(与最初的逐行方法相比似乎没有任何改进)：

#make a smaller mega_mtcars
mega_mtcars <- sapply(mtcars, rep.int, times = 100) %>% as.data.table

# use rowwise from dplyr
system.time(mega_mtcars %>% rowwise %>% mutate(out = my_function(mpg, as.character(gear))))
   user  system elapsed 
  8.086   2.860  10.941 
    
# use Map with data.table
system.time(mega_mtcars[, out := unlist(Map(my_function, x = mpg, y = as.character(gear)))])
  user  system elapsed 
  7.843   2.815  10.654 
    
# use dapply from collapse package
system.time(dapply(mega_mtcars[, .(mpg, gear)], MARGIN = 1, function(x) my_function(x[1], as.character(x[2]))))
   user  system elapsed 
  7.957   3.167  11.127

还有其他想法吗？

dplyr

data.table

rowwise

回答 2

Stack Overflow用户

发布于 2022-01-02 18:08:31

使用data.table，可以通过对行序列进行分组来实现rowwise

library(data.table)
mega_mtcars[, out := my_function(mpg, as.character(gear)) , 
       by = 1:nrow(mega_mtcars)]

票数 2

Stack Overflow用户

发布于 2022-01-02 22:12:34

对gear_lst中的值进行排序有帮助吗？

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70557802

复制

相似问题

问对data.table (R)中的列组合执行行向非向量化函数
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对data.table (R)中的列组合执行行向非向量化函数EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对data.table (R)中的列组合执行行向非向量化函数
EN