我在sparkR有一个叫pgz的pgz。它包含user_id和time。对于固定的user_id k
y <- filter(pgz, pgz$user_id == k)当我输入head(y)时,我可以看到user_id k的一些情况。"2005-02-04“,”2005-06-06“它们都被分类了,所以它们增加了。对于这个user_id,我想测试他的times是否大于我设置的固定时间。
fixtime <- "2010-01-01"我想保存比固定时间大一倍的user_id。这是如何做到的呢?
发布于 2015-08-27 11:00:00
首先,让我们创建一些要测试的示例数据
set.seed(1)
dd = data.frame(id = base::sample(1:3, 4,TRUE),
times = base::sample(c("2005-02-04" , "2005-06-06", "2007-02-04" , "2006-06-06"),
12, TRUE))
dd$times = as.Date(dd$times)
NROW(dd[dd$id==1 & dd$times > as.Date("2006-01-01"),])对于这个数据集,我们应该得到答案2。
创建星火数据框架
dd_sp = createDataFrame(sqlContext, dd) 然后过滤
dd_sp_k = filter(dd_sp, dd_sp$id== 1 &
dd_sp$times > as.Date("2006-01-01"))然后我们可以使用summarise来获取数据帧的长度。
## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
head这就等于2。
https://stackoverflow.com/questions/32246026
复制相似问题