我有一个.csv文件,它包含第一列中的基因名称和后续列中每个患者的每个基因的“每百万条转录数”计数。有56,632个基因被读取,并且似乎有许多重复的基因ID。下面是我的数据矩阵示例:
Gene_ID UniIEC01 UniIEC02 UniIEC03 UniIEC04 UniIEC05
TSPAN6 1.45 1.30 1.53 1.35 1.50
TNMD -2.00 -2.00 -2.00 -2.00 0.29
DPM1 0.76 1.06 1.37 0.90 1.26
SCYL3 -0.43 0.67 0.43 0.71 0.23
C1orf112 -0.43 0.18 0.14 0.74 0.06
FGR -2.00 -2.00 -2.00 0.29 -2.00
CFH -2.00 -0.92 -2.00 -0.42 -2.00对于"read.table“,我尝试了以下方法,但遇到了以下问题:
(1)手动添加一个编号为"row.names“的列,并为该列分配"row.names”。问题:我无法通过基因名称调用数据。我有一些200+基因的列表,我想调用它们,但要找到每一个的行号太费力了。(2)在读取表格时,我设置了格式正确的"row.names= NULL“。问题:当我尝试使用以下方法调用数据时
"data.frame["TSPAN6":"TNMD",1:5] 我得到了错误消息:"NAs由强制引入“,除了患者编号之外的所有单元都返回为"NA”。
有人能帮我解决这个问题吗?
我的最终目标是使用56,632个基因中的特定基因集创建一个热图。
谢谢!
Avantika
发布于 2015-10-24 04:00:03
你可以通过以下方式获得你想要的基因:
gene_list <- c('CNTF', 'CFH', 'TSPAN6')
df[df$Gene_ID %in% gene_list, ]gplots包中的heatmap.2()是制作热图的一种比较流行的方法。
话虽如此,你可能应该回去找出为什么你有重复的基因名称。我猜每个基因都有多种异构体。在这种情况下,如果你想在基因水平上进行量化,你需要从原始计数中重新计算每百万个转录本。但是这个问题不是堆栈溢出造成的。尝试使用biostars.org来询问如何重新计算这些值。
https://stackoverflow.com/questions/33310338
复制相似问题