首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在DataFrame中用sparkR测试条目

如何在DataFrame中用sparkR测试条目
EN

Stack Overflow用户
提问于 2015-08-27 09:46:44
回答 1查看 63关注 0票数 1

我在sparkR有一个叫pgzpgz。它包含user_idtime。对于固定的user_id k

代码语言:javascript
复制
y <- filter(pgz, pgz$user_id == k)

当我输入head(y)时,我可以看到user_id k的一些情况。"2005-02-04“,”2005-06-06“它们都被分类了,所以它们增加了。对于这个user_id,我想测试他的times是否大于我设置的固定时间。

代码语言:javascript
复制
fixtime <- "2010-01-01"

我想保存比固定时间大一倍的user_id。这是如何做到的呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-08-27 11:00:00

首先,让我们创建一些要测试的示例数据

代码语言:javascript
复制
set.seed(1)
dd = data.frame(id = base::sample(1:3, 4,TRUE), 
                times = base::sample(c("2005-02-04" , "2005-06-06", "2007-02-04" , "2006-06-06"), 
                                     12, TRUE))
dd$times = as.Date(dd$times)
NROW(dd[dd$id==1 & dd$times > as.Date("2006-01-01"),])

对于这个数据集,我们应该得到答案2。

创建星火数据框架

代码语言:javascript
复制
dd_sp = createDataFrame(sqlContext, dd) 

然后过滤

代码语言:javascript
复制
dd_sp_k = filter(dd_sp, dd_sp$id== 1 & 
             dd_sp$times > as.Date("2006-01-01"))

然后我们可以使用summarise来获取数据帧的长度。

代码语言:javascript
复制
## This seems a bit clunky, bit it works.
summarize(dd_sp_k, count = n(dd_sp_k$times)) %>%
  head

这就等于2。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32246026

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档