我有一个名为df_a的数据集,以百万计的速度运行。我想按月计算流失率和分组。
在示例数据上,我运行了代码来准备数据。
逻辑是找到最小月份(获得的月份)。
根据记录找到最后一个月
以月份为单位查找差异,并将差异按月份分组。
下面的代码
df_a<-data.table(df)
df_a[,"min_date" := min(yw), by=c("CUSTOMER_DIMENSION_ID")]
df_a[,"max_date" := max(yw), by=c("CUSTOMER_DIMENSION_ID")]
df_a$min_date_m<-anydate(df_a$min_date)
df_a$max_date_m<-anydate(df_a$max_date)
df_a$diff_days <- df_a$max_date_m - df_a$min_date_m
df_a$difference <- as.numeric(df_a$diff_days) /(365.25/12)
df_a$Month_Bucket<-ifelse((df_a$difference>=0 & df_a$difference<3),"3",
ifelse((df_a$difference>=3 & df_a$difference<6),"3-6",
ifelse((df_a$difference>=6 & df_a$difference<9),"6-9",
ifelse((df_a$difference>=9 & df_a$difference<12),"9-12",
ifelse((df_a$difference>=12 & df_a$difference<24),"12-24",
"24+")))))
data_a <- df_a[c(1,1:nrow(df_a)),]
setDT(data_a)
xxx<-(cohorts <-dcast(unique(data_a)[,cohort:=min(yw),by=CUSTOMER_DIMENSION_ID],cohort~Month_Bucket))我得到的输出格式如下
Month 3
2020-08 92876
2020-07 144873但是输出是不正确的。
我想要的是
Month no of unique customers acquired 0-3 3-6 6-9
2019-08 85749
2019-07 128060 输出基本上是总结客户跨越几个月并分配一个桶。然而,如果我在2009-08年度获得85749客户,我将在3-6个月内再次让25000名客户在0-325k内购买。
发布于 2020-10-20 08:32:48
这里有一个人可以做到:
data_unique <- unique(data_a)
ccc <- ( cohorts <- dcast( data_unique[ ,
cohort := min(yw),
by=CUSTOMER_DIMENSION_ID],
cohort ~ Month_Bucket,
value.var = "CUSTOMER_DIMENSION_ID",
function(x) { length(unique(x) } ) )
)https://stackoverflow.com/questions/64441197
复制相似问题