首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >BioConductor IRanges覆盖率计数和识别段

BioConductor IRanges覆盖率计数和识别段
EN

Stack Overflow用户
提问于 2014-04-15 03:40:39
回答 1查看 138关注 0票数 1

我有一组制造电路的区间信息数据集。

代码语言:javascript
复制
df <- data.frame(structure(list(circuit = structure(c(2L, 1L, 2L, 1L, 2L, 3L, 
1L, 1L, 2L), .Label = c("a", "b", "c"), class = "factor"), start = structure(c(1393621200, 
1393627920, 1393628400, 1393631520, 1393650300, 1393646400, 1393656000, 
1393668000, 1393666200), class = c("POSIXct", "POSIXt"), tzone = ""), 
end = structure(c(1393626600, 1393631519, 1393639200, 1393632000, 
1393660500, 1393673400, 1393667999, 1393671600, 1393677000
), class = c("POSIXct", "POSIXt"), tzone = ""), id = structure(1:9, .Label = c("1001", 
"1002", "1003", "1004", "1005", "1006", "1007", "1008", "1009"
), class = "factor")), .Names = c("circuit", "start", "end", 
"id"), class = "data.frame", row.names = c(NA, -9L)))

  • 电路:电路标识符
  • 启动:电路开始运行的时间
  • Finish:电路停止运行的时间
  • Id:行的唯一标识符

我能够创建一个新的数据集来统计重叠间隔的数量:

代码语言:javascript
复制
ir <- IRanges(start = as.numeric(df$start), end = as.numeric(df$end), names = df$id)

cov <- coverage(ir)

start_time <- as.POSIXlt(start(cov), origin = "1970-01-01")
end_time   <- as.POSIXlt(end(cov), origin = "1970-01-01")
seconds    <- runLength(cov)
circuits_running <- runValue(cov)

res <- data.frame(start_time,end_time,seconds,circuits_running)[-1,]

但我真正需要的是更像这样的东西:

代码语言:javascript
复制
sqldf("select 
            res.start_time, 
            res.end_time, 
            res.seconds, 
            res.circuits_running, 
            df.circuit, 
            df.id
      from res left join df on (res.start_time between df.start and df.end)")

问题是,在我的完整数据集中,使用不等式联接的sqldf方式速度慢得令人难以忍受。

单独使用IRanges 如何获得类似的东西?

我怀疑这与RangedData有关,但我一直未能看到如何得到我想要的东西。这是我试过的..。

代码语言:javascript
复制
rd <- RangedData(ir, circuit = df$circuit, id = df$id)
coverage(rd) # works but seems to lose the circuit/id info
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-04-15 13:03:07

覆盖范围可以表示为范围,删除第一个范围(范围从1970年到第一个起点)。

代码语言:javascript
复制
cov <- coverage(ir)
intervals <- ranges(cov)[-1]

您的查询是查找每个电路间隔的开始,因此我将间隔缩小到它们的起始坐标并查找重叠(第一个参数是' query ',第二个参数是'subject')。

代码语言:javascript
复制
olaps <- findOverlaps(narrow(intervals, width(intervals)), ir)

在特定时间间隔内运行的电路数目为

代码语言:javascript
复制
tabulate(queryHits(olaps), queryLength(olaps))

实际电路是

代码语言:javascript
复制
df[subjectHits(olaps), c("circuit", "id")]

也许,这些碎片可以编织在一起。

代码语言:javascript
复制
df1 <- cbind(uid=seq_along(intervals),
             as.data.frame(intervals),
             circuits_running=tabulate(queryHits(olaps), queryLength(olaps)))
df2 <- cbind(uid=queryHits(olaps),
             df[subjectHits(olaps), c("circuit", "id")])
merge(df1, df2, by="uid", all=TRUE)

范围可以以协调的方式与可访问和子集的“元数据”相关联,因此data.frame和Ranges之间的连接不必如此松散和特殊。相反,我可能

代码语言:javascript
复制
ir <- IRanges(start = as.numeric(df$start), end = as.numeric(df$end))
mcols(ir) <- DataFrame(df)
## ...
mcols(ir[subjectHits(olaps)])

也许是用as.data.frame()做的,当用IRanges land。

最好在生物导体IRanges上问你关于邮寄名单的问题,不需要订阅。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23074264

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档