文章/答案/技术大牛

发布

问具有动态列范围的Rowsum
EN

Stack Overflow用户

提问于 2018-09-27 20:04:34

回答 1查看 761关注 0票数 1

我正在使用一个大型的健康保险数据集，我对某些索赔代码的参与者感兴趣。我的其中一项纳入准则是，参加者必须在申索日期前及之后一年内投保。例如，如果他们在2017年9月27日受伤，他们需要从2016年9月27日至2018年9月27日的保险。

我尝试过做一个简单的行和，并使用apply，但两者都有相同的问题：in from:to : numerical expression has # elements: only the first used。现在，我在dataframe中将范围保存为变量。它认为我理解为什么我有这个问题-它期待一个数字，并收到一个向量。如何使它有条件地选择要和的列。我将在下面包含我的代码。

在我的例子中，我只是试图计算一个参与者在事故前后6个月内投保的月数。ins_#_#变量是一个简单的“是”/“否”，以决定参与者是否参加了那个月的保险。如有任何指导，将不胜感激！

library(tidyverse)
set.seed(1)
df <- data.frame(id= seq(1,100),
                 injury_date = sample(seq(as.Date('2017/01/01'), as.Date('2017/12/31'), by="day"), 100),
                 ins_07_16 = sample(c(0,1), replace = TRUE),
                 ins_08_16 = sample(c(0,1), replace = TRUE),
                 ins_09_16 = sample(c(0,1), replace = TRUE),
                 ins_10_16 = sample(c(0,1), replace = TRUE),
                 ins_11_16 = sample(c(0,1), replace = TRUE),
                 ins_12_16 = sample(c(0,1), replace = TRUE),
                 ins_01_17 = sample(c(0,1), replace = TRUE),
                 ins_02_17 = sample(c(0,1), replace = TRUE),
                 ins_03_17 = sample(c(0,1), replace = TRUE),
                 ins_04_17 = sample(c(0,1), replace = TRUE),
                 ins_05_17 = sample(c(0,1), replace = TRUE),
                 ins_06_17 = sample(c(0,1), replace = TRUE),
                 ins_07_17 = sample(c(0,1), replace = TRUE),
                 ins_08_17 = sample(c(0,1), replace = TRUE),
                 ins_09_17 = sample(c(0,1), replace = TRUE),
                 ins_10_17 = sample(c(0,1), replace = TRUE),
                 ins_11_17 = sample(c(0,1), replace = TRUE),
                 ins_12_17 = sample(c(0,1), replace = TRUE),
                 ins_01_18 = sample(c(0,1), replace = TRUE),
                 ins_02_18 = sample(c(0,1), replace = TRUE),
                 ins_03_18 = sample(c(0,1), replace = TRUE),
                 ins_04_18 = sample(c(0,1), replace = TRUE),
                 ins_05_18 = sample(c(0,1), replace = TRUE),
                 ins_06_18 = sample(c(0,1), replace = TRUE))

df <- df %>% 
  mutate(month = as.numeric(format(as.Date(injury_date), "%m")), #pulling month of injury
         low_mo = month + 2,
         high_mo = month + 14)


df$insured <- rowSums(df[df$low_mo:df$high_mo]) #only uses first element

df$insured <- apply(df[df$low_mo:df$high_mo], 1, sum) #only uses first element

编辑:虽然我没有说明我想要一个快速的解决方案，但是我正在处理大量的数据，所以我测试了@akrun的解决方案中哪一个是最快的。我更改了dataframe，使其为1e5 (100,000)行。如果有人好奇的话，结果在下面。

microbenchmark(o1 <- sapply(seq_len(nrow(df)), function(i) sum(df[i, df$low_mo[i]:df$high_mo[i]])),
               o2 <- {colInd <- Map(`:`, df$low_mo, df$high_mo);
               rowInd <- rep(seq_len(nrow(df)), lengths(colInd));
               as.vector(tapply(df[-(1:2)][cbind(rowInd, unlist(colInd)-2)], 
                                rowInd, FUN = sum))},
               o3 <- {colInd1 <- Map(function(x, y) which(!seq_along(df) %in% x:y), df$low_mo, df$high_mo);
               rowInd1 <- rep(seq_len(nrow(df)), lengths(colInd1));
               rowSums(replace(df, cbind(rowInd1, unlist(colInd1)), NA)[-(1:2)], na.rm = TRUE)},
               times = 5)


     Unit: milliseconds



   expr         min         lq       mean     median         uq        max neval
     o1  20408.5072 20757.0285 20903.9386 20986.2275 21069.3163 21298.6137     5
     o2    433.5463   436.3066   448.6448   455.6551   456.8836   460.8325     5
     o3    470.6834   482.4449   492.9594   485.6210   504.1353   521.9122     5

> identical(o1, o2)
[1] TRUE
> identical(o2, o3)
[1] TRUE

data.table

tidyverse

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-27 20:26:02

有几种方法可以做到这一点。循环遍历行序列，根据行索引对数据集进行子集，并对每一行接受'low_mo‘和'high_mo’序列生成的列，得到sum

o1 <- sapply(seq_len(nrow(df)), function(i) sum(df[i, df$low_mo[i]:df$high_mo[i]]))

或者另一个选项是根据row/column索引提取元素，然后通过sum进行分组。

colInd <- Map(`:`, df$low_mo, df$high_mo)
rowInd <- rep(seq_len(nrow(df)), lengths(colInd))
o2 <- as.vector(tapply(df[-(1:2)][cbind(rowInd, unlist(colInd)-2)], 
        rowInd, FUN = sum))
identical(o1, o2)
#[1] TRUE

或者另一种方法是将不按顺序排列的列值更改为NA，然后使用rowSums

colInd1 <- Map(function(x, y) which(!seq_along(df) %in% x:y), df$low_mo, df$high_mo)
rowInd1 <- rep(seq_len(nrow(df)), lengths(colInd1))
o3 <- rowSums(replace(df, cbind(rowInd1, unlist(colInd1)), 
               NA)[-(1:2)], na.rm = TRUE)
identical(o1, o3)
#[1] TRUE

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52544366

复制

相似问题

问具有动态列范围的Rowsum
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有动态列范围的RowsumEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有动态列范围的Rowsum
EN