文章/答案/技术大牛

发布

社区首页 >问答首页 >当基因名称重复时，如何通过R中的RNAseq数据中的基因in调用数据框？

问当基因名称重复时，如何通过R中的RNAseq数据中的基因in调用数据框？
EN

Stack Overflow用户

提问于 2015-10-24 03:48:30

回答 1查看 65关注 0票数 0

我有一个.csv文件，它包含第一列中的基因名称和后续列中每个患者的每个基因的“每百万条转录数”计数。有56,632个基因被读取，并且似乎有许多重复的基因ID。下面是我的数据矩阵示例：

Gene_ID     UniIEC01    UniIEC02    UniIEC03    UniIEC04    UniIEC05
TSPAN6        1.45        1.30        1.53        1.35        1.50
TNMD         -2.00       -2.00       -2.00       -2.00        0.29
DPM1          0.76        1.06        1.37        0.90        1.26
SCYL3        -0.43        0.67        0.43        0.71        0.23
C1orf112     -0.43        0.18        0.14        0.74        0.06
FGR          -2.00       -2.00       -2.00        0.29       -2.00
CFH          -2.00       -0.92       -2.00       -0.42       -2.00

对于"read.table“，我尝试了以下方法，但遇到了以下问题：

(1)手动添加一个编号为"row.names“的列，并为该列分配"row.names”。问题:我无法通过基因名称调用数据。我有一些200+基因的列表，我想调用它们，但要找到每一个的行号太费力了。(2)在读取表格时，我设置了格式正确的"row.names= NULL“。问题:当我尝试使用以下方法调用数据时

"data.frame["TSPAN6":"TNMD",1:5]

我得到了错误消息："NAs由强制引入“，除了患者编号之外的所有单元都返回为"NA”。

有人能帮我解决这个问题吗？

我的最终目标是使用56,632个基因中的特定基因集创建一个热图。

谢谢!

Avantika

macos

回答 1

Stack Overflow用户

发布于 2015-10-24 04:00:03

你可以通过以下方式获得你想要的基因：

gene_list <- c('CNTF', 'CFH', 'TSPAN6')
df[df$Gene_ID %in% gene_list, ]

gplots包中的heatmap.2()是制作热图的一种比较流行的方法。

话虽如此，你可能应该回去找出为什么你有重复的基因名称。我猜每个基因都有多种异构体。在这种情况下，如果你想在基因水平上进行量化，你需要从原始计数中重新计算每百万个转录本。但是这个问题不是堆栈溢出造成的。尝试使用biostars.org来询问如何重新计算这些值。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33310338

复制

相似问题

问当基因名称重复时，如何通过R中的RNAseq数据中的基因in调用数据框？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当基因名称重复时，如何通过R中的RNAseq数据中的基因in调用数据框？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当基因名称重复时，如何通过R中的RNAseq数据中的基因in调用数据框？
EN