unsetunsetXENA下载TCGA数据unsetunset
最近碰到好多新手说不能从XENA下载TCGA的数据了,其实是可以的哈,只是下载页面变了而已!
现在需要来到这个网址:https://xenabrowser.net/datapages/
然后选择你需要的数据即可,有GDC TCGA的,也有TCGA的,没啥太大的区别,自己选一个喜欢就行了:


比如选一个GDC TCGA Breast Cancer (BRCA),我如果要下载gene expression RNAseq中的STAR - Counts:

这个STAR - Counts点进去就有下载地址了:

还是熟悉的界面,完全没变化哈。
但是这种方法下载的数据还是需要你自己整理的哈,对于新手来说还是很痛苦的,对于高手来说都是很简单的几行代码而已。所以对于初学者我还是推荐1行代码的下载方法哈。首先是安装easyTCGA这个R包:
### 先安装依赖包
# 安装bioconductor上面的R包
# 首先要改镜像,下面是清华的镜像,有时会有问题,可更改其他镜像试试(自己百度下喽~)
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
if(!require("BiocManager")) install.packages("BiocManager")
if(!require("TCGAbiolinks")) BiocManager::install("TCGAbiolinks")
if(!require("SummarizedExperiment")) BiocManager::install("SummarizedExperiment")
if(!require("DESeq2")) BiocManager::install("DESeq2")
if(!require("edgeR")) BiocManager::install("edgeR")
if(!require("limma")) BiocManager::install("limma")
# 安装cran上面的R包
if(!require("survival")) install.packages("survival")
if(!require("broom")) install.packages("broom")
if(!require("devtools")) install.packages("devtools")
if(!require("reshape2")) install.packages("reshape2")
if(!require("data.table")) install.packages("data.table")
if(!require("ggplot2")) install.packages("ggplot2")
if(!require("ggpubr")) install.packages("ggpubr")
### 再安装easyTCGA,对你的网络有要求
devtools::install_github("ayueme/easyTCGA")
如果你要下载TCGA-MESO的基因表达数据,直接就是2行代码搞定:
library(easyTCGA)
getmrnaexpr("TCGA-MESO")
它会帮你做一下事情:
mRNA和lncRNA的counts,tpm,fpkm共6种表达矩阵(直接从官网的原始数据提取,未进行任何修改,所以是没有经过log转换的),以及对应的临床信息,临床信息样本顺序和表达矩阵样本顺序完全一致,无需再次整理;output_mRNA_lncRNA_expr文件夹下,并且同时保存rdata和csv两种文件格式,关于这个临床信息,其实非常复杂,我专门写了一篇推文解释,大家请移步:TCGA临床数据(化疗数据、用药反应等)和生存信息(4种临床结局)整理GDC TCGA官网保持一致以我的网络情况不到1分钟就完成了:

但是总有人会因为网络问题而下载失败,甚至连R包也无法安装,那就没办法啦,网络问题我也帮不了你。
还有一些人会因为依赖包版本问题导致出错,所以我直接贴出我的R包版本,我使用的R版本是4.5.0,你用的4.5.1也不影响:


三连一下,感谢支持