TGCA 数据储存在 Genomic Data Commons Data Portal,但是这个网页不只储存 TGCA 的数据,还保存着其他项目。,目前一共有 86 个 projects。


数据库主要有三个界面,Projedcts, Cohort Builder, Repository.

这个界面主要就是看我们关注的项目都有哪些,可以利用一些筛选条件,对总共 86 个 projects 进行筛选,然后再进一步看这些项目的具体信息。
比如我按照以下条件在左侧选择框中进行筛选,想看哪些 TCGA 项目有胰腺导管癌。
可以看到最后只有一个 project。


可以看带这个项目的基本信息。可以下载下来查看,但比较难读。不推荐

这一步就是筛选我们需要的样本,为下一步下载数据做准备, 这一步是得到想要的 患者数据。
比如我是在 General这一步过滤的:

选择好后就点 Repository

这一步是选择我们想要哪些数据,比如我们想要下载这些样本点转录组数据,是选择:

一共 145 个样本,点击 Add All Files to Cart
然后点击 Download Cart---Manifest

下载 TCGA 数据的 manifest 文件后,你可以使用 GDC Data Transfer Tool 来下载实际的数据文件。以下是具体步骤:
gdc-client download -m path/to/manifest.txt