我对multidplyr有意见。我的原始数据:
warehouse quantity stock_date flag_stock
1 a 1 2018-01-01 1
2 b 2 2018-01-01 0
3 a 0 2018-01-02 1
4 a 2 2018-01-02 1
...
cluster <- multidplyr::create_cluster(detectCores() - 1)
set_default_cluster(cluster)我希望使用multidplyr按仓库和date_add聚合数据:
warehouse.stock %>%
multidplyr::partition(warehouse.stock,
groups = c(warehouse, stock_date), cluster = cluster) %>%
summarize(n = sum(quantity), disp = sum(flag_stock)) %>%
collect()但是,当我运行代码时,我得到了以下错误消息:
错误:所有分区vars都必须已经存在
谢谢!
发布于 2018-08-09 08:20:45
分组变量必须位于原始数据集中,stock_date列不出现在上面的数据集中。
这就是你想要的吗?
warehouse.stock %>%
multidplyr::partition(.,
groups = c(warehouse, date_add), cluster = cluster) %>%
summarize(n = sum(quantity), disp = sum(flag_stock)) %>%
collect()https://stackoverflow.com/questions/51761902
复制相似问题