文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从杂乱的CSV文件中构建数据矩阵？

问如何从杂乱的CSV文件中构建数据矩阵？
EN

Stack Overflow用户

提问于 2014-01-20 07:24:07

回答 2查看 424关注 0票数 0

我有一个很大的.csv文件，如下所示：

Transcript Id   Gene Id(name)   Mirna Name  miTG score
ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p   1
UTR3    21:30717114-30717142    0.05994568  
UTR3    21:30717414-30717442    0.13591267  
ENST00000345080 ENSG00000187772 (LIN28B)    hsa-let-7a-5p   1
UTR3    6:105526681-105526709   0.133514751

我想用它构建一个这样的矩阵：

Transcript Id    Gene Id(name)   Mirna Name        miTG score    UTR3        MRE_score   
ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p       1  21:30717414-30717442 0.13591267

我想在我的新矩阵中添加三个新列，分别是UTR3、MRE_score和CDS。

对于每个Gene ID (例如ENST00000286800)，原始矩阵中有几个UTR3 (此处两个UTR3用于ENST00000286800，一个UTR3用于ENST00000345080)我们在第三列中选择得分最高的UTR3。在新矩阵中，每个Gene ID的UTR3的值将是原始矩阵第二列中的UTR3的值。

有没有人可以帮助我重塑这些数据并构建我的新矩阵？

reshape

csv

matrix

回答 2

Stack Overflow用户

发布于 2014-01-20 08:05:05

您可以尝试使用正则表达式来构造CSV：

textfile <- "ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p   1
UTR3    21:30717114-30717142    0.05994568  
UTR3    21:30717414-30717442    0.13591267  
ENST00000345080 ENSG00000187772 (LIN28B)    hsa-let-7a-5p   1
UTR3    6:105526681-105526709   0.133514751"
txt <- readLines(textConnection(textfile))

sepr <- grepl("^ENST.*", txt) 
r <- rle(sepr)
r <- r$lengths[!r$values]

regex <- "(\\S+)\\s+(\\S+)\\s(\\([^)]+\\)\\s+\\S+)\\s+(\\d+)"
m <- regexec(regex, txt[sepr])
m1 <- as.data.frame(t(sapply(regmatches(txt[sepr], m), "[", 2:5)))
m1 <- m1[rep(1:nrow(m1), r),]

regex <- "(\\S+)\\s+(\\S+)\\s+(\\S+)"
m <- regexec(regex, txt[!sepr])
m2 <- as.data.frame(t(sapply(regmatches(txt[!sepr], m), "[", 2:4)))

df <- cbind(m1, m2[,-1])
names(df) <- c("Transcript Id",    "Gene Id(name)",   "Mirna Name",        "miTG score",    "UTR3",        "MRE_score"   )
rownames(df) <- NULL
df
# Transcript Id   Gene Id(name)                Mirna Name miTG score                  UTR3   MRE_score
# 1 ENST00000286800 ENSG00000156273     (BACH1) hsa-let-7a-5p          1  21:30717114-30717142  0.05994568
# 2 ENST00000286800 ENSG00000156273     (BACH1) hsa-let-7a-5p          1  21:30717414-30717442  0.13591267
# 3 ENST00000345080 ENSG00000187772 (LIN28B)    hsa-let-7a-5p          1 6:105526681-105526709 0.133514751

票数 3

Stack Overflow用户

发布于 2014-01-20 13:22:34

使用以下测试数据：

Lines <- " Transcript Id   Gene Id(name)   Mirna Name  miTG score
ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p   1
UTR3    21:30717114-30717142    0.05994568  
UTR3    21:30717414-30717442    0.13591267  
ENST00000345080 ENSG00000187772 (LIN28B)    hsa-let-7a-5p   1
UTR3    6:105526681-105526709   0.133514751"

读取所有内容，并设置输出的名称和nms。然后使用累积和计算分组向量cs。非重复项是每个组的第一行，重复项是随后的行。按组合并这两组行，并提取出每组中最高的MRE_score：

DF <- read.table(text = Lines, header = TRUE, fill = TRUE, as.is = TRUE, 
         check.names = FALSE)
nms <- c("cs", names(DF)[1:5], "UTR3", "MRE_score") # out will have these names
DF$cs <- cumsum(!is.na(DF$Mirna)) # groups each ENST row with its UTR3 rows
dup <- duplicated(DF$cs) # FALSE for ENST rows and TRUE for UTR3 rows
both <- merge(DF[!dup, ], DF[dup, ], by = "cs")[c(1:6, 11:12)]  # merge ENST & UTR3 rows
names(both) <- nms
both$MRE_score <- as.numeric(both$MRE_score)
Rank <- function(x) rank(x, ties.method = "first")
out <- both[ave(-both$MRE_score, both$cs, FUN = Rank) == 1, -1] # only keep largest score

这是我们得到的：

> out
       Transcript              Id     Gene      Id(name) Mirna                  UTR3 MRE_score
2 ENST00000286800 ENSG00000156273  (BACH1) hsa-let-7a-5p     1  21:30717414-30717442 0.1359127
3 ENST00000345080 ENSG00000187772 (LIN28B) hsa-let-7a-5p     1 6:105526681-105526709 0.1335148

请注意，该问题引用了一个CDS列，但它是什么没有描述，也没有出现在示例输出中，所以我们忽略了它。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21224026

复制

相似问题

问如何从杂乱的CSV文件中构建数据矩阵？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从杂乱的CSV文件中构建数据矩阵？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从杂乱的CSV文件中构建数据矩阵？
EN