文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在DataFrame中用sparkR测试条目

问如何在DataFrame中用sparkR测试条目
EN

Stack Overflow用户

提问于 2015-08-27 09:46:44

回答 1查看 63关注 0票数 1

我在sparkR有一个叫pgz的pgz。它包含user_id和time。对于固定的user_id k

y <- filter(pgz, pgz$user_id == k)

当我输入head(y)时，我可以看到user_id k的一些情况。"2005-02-04“，”2005-06-06“它们都被分类了，所以它们增加了。对于这个user_id，我想测试他的times是否大于我设置的固定时间。

fixtime <- "2010-01-01"

我想保存比固定时间大一倍的user_id。这是如何做到的呢？

sparkr

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-08-27 11:00:00

首先，让我们创建一些要测试的示例数据

set.seed(1)
dd = data.frame(id = base::sample(1:3, 4,TRUE), 
                times = base::sample(c("2005-02-04" , "2005-06-06", "2007-02-04" , "2006-06-06"), 
                                     12, TRUE))
dd$times = as.Date(dd$times)
NROW(dd[dd$id==1 & dd$times > as.Date("2006-01-01"),])

对于这个数据集，我们应该得到答案2。

创建星火数据框架

dd_sp = createDataFrame(sqlContext, dd)

然后过滤

dd_sp_k = filter(dd_sp, dd_sp$id== 1 & 
             dd_sp$times > as.Date("2006-01-01"))

然后我们可以使用summarise来获取数据帧的长度。

## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
  head

这就等于2。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32246026

复制

相似问题

问如何在DataFrame中用sparkR测试条目
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在DataFrame中用sparkR测试条目EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在DataFrame中用sparkR测试条目
EN