首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >选择在一个时间范围内至少显示n条记录的所有唯一条目

选择在一个时间范围内至少显示n条记录的所有唯一条目
EN

Stack Overflow用户
提问于 2020-04-17 20:24:41
回答 4查看 50关注 0票数 1

我有以下数据集(32000个条目),按监测点和采样年份组织的水化学化合物年平均值,示例如下:

代码语言:javascript
复制
data= data.frame(Site_ID=c(1, 1, 1, 2, 2, 2, 3, 3, 3), Year=c(1976, 1977, 1978, 2004, 2005, 2006, 2003, 2004, 2005), AnnualMean=c(1.1, 1.2, 1.1, 2.1, 2.6, 3.1, 2.7, 2.6, 1.9))

我只想选择year1和year2之间至少有n个测量值的所有监测点的数据。通常,我希望选择显示1990至2005年间10个测量值的监测点的所有数据。到目前为止,我尝试了,但没有成功:

代码语言:javascript
复制
data %>%
group_by(Site_ID) %>%
filter(n()>=n %in% between(Year, year1, year2))
EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2020-04-17 21:19:36

这将选择所有Site_ID组,这些组至少包含parms['yr1']parms['yr2']之间的parms['n']观察值。

代码语言:javascript
复制
library(data.table)
setDT(df)

parms <- c(n = 2, yr1 = 2000, yr2 = 2005)

df[, if(sum(Year %between% parms[c('yr1', 'yr2')]) >= parms['n']) .SD, 
   by = Site_ID]

#    Site_ID Year AnnualMean
# 1:       2 2004        2.1
# 2:       2 2005        2.6
# 3:       2 2006        3.1
# 4:       3 2003        2.7
# 5:       3 2004        2.6
# 6:       3 2005        1.9
票数 1
EN

Stack Overflow用户

发布于 2020-04-17 20:57:24

Base-R中的代码处理您提供的示例数据。您可以更改IDstoGet <- Site_IDs[CountBySite_IDs >= 3]中的数字,使其只接受数据点数量超过所需数量的Site_IDs。

代码语言:javascript
复制
DataInRange <- data[(data$Year>=1990&data$Year<=2005),]
Site_IDs <- unique(DataInRange$Site_ID)
CountBySite_IDs <- sapply(Site_IDs, function(x) length(grep(x,DataInRange$Site_ID)))
IDstoGet <- Site_IDs[CountBySite_IDs >= 3]
DataToGetPosition <- unlist(lapply(IDstoGet, grep, DataInRange$Site_ID))

DataInRange[DataToGetPosition,]

输出

代码语言:javascript
复制
> DataInRange[DataToGetPosition,]
  Site_ID Year AnnualMean
7       3 2003        2.7
8       3 2004        2.6
9       3 2005        1.9
票数 1
EN

Stack Overflow用户

发布于 2020-04-17 21:04:17

3.我不确定这是不是你想要的结果,也许你可以试一试

代码语言:javascript
复制
data %>%
  group_by(Site_ID) %>%
  filter(between(Year,1990,2005)) %>%
  filter(Year, n()>=10)

一种基于R的替代方案是

代码语言:javascript
复制
subset(data,
       !!ave(ave(Year,
                 Site_ID,
                 FUN = function(x) x>=1990&x<=2005),
             Site_ID,
             FUN = function(x) sum(x)>2))
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61271610

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档