1 外显子和外显子组 外显子是蛋白质的编码区域,是这和生物基因组的一部分。基因组中的全部外显子称为外显子组。人类基因组大约有1.8*10^5个外显子,30Mb,占人类基因组的1%。 研究表明,人类85%以上的疾病基因都由外显子碱基突变造成。 ? exom 2外显子测序技术的原理 Exome sequencing, 也叫 whole exome sequencing (WES) 包括三步: 外显子序列的捕获富集 DNA测序 数据统计分析 ? 流程 2.1 外显子组的捕获富集 目前,主要通过(NimbleGen)和安捷伦(Agilent) 两种捕获芯片对外显子序列进行富集。其基本原理是捕获,富集,高通量分析 ? 3.2 发现致癌基因和抑癌基因 外显子区域突变容易导致非正常功能蛋白的产生,甚至和细胞癌变能力相关。这对标记物,治疗等有重要意义。 3.3 肿瘤分子分型
外显子测序,也叫做外显子捕获测序。首先利用序列捕获技术将外显子区域的DNA捕获并富集,然后进行高通量测序。外显子测序主用用来分析基因组上的变异位点,包括SNP和INDEL。 外显子区域占整个人类基因组1%的比例,但是却包含了85%左右的已知疾病变异。相比全基因组测序,外显子测序成本低,而且可以检测到全基因组测序鉴定不到的一些SNP位点。 illumina 是目前最大的二代测序仪厂商,其外显子试剂盒价格比较低,应用的也很多。 langsel=/cn/ 外显子区域富集完成之后,就是高通量测序了,目前主流的测序平台还是illumina, 包括Miseq, Hiseq和Novaseq。 对于外显子数据而言,基础分析的核心就是snp calling。
作者,Evil Genius最近接受南京一家医院的邀请做了一次有关外显子的分析汇报,把内容分享给大家。
跟普通的肿瘤外显子测序数据的分析步骤并没有较大差异,如下所示: 普通的肿瘤外显子测序数据的分析 虽然这个研究仅仅是产生了3个类器官数据,但是需要有9个样品进行外显子测序哦,其中每个病人的正常对照仅仅是数据分析过程使用 既然是外显子测序,那就是从肿瘤外显子的SNV和CNV两个分析结果的角度来说明。 值得玩味的是文章里面并没有提到 这个MesKit工具,我在原文里面看了看:https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202103999 ,其提到的肿瘤外显子数据分析流程里面的软件工具列表如下所示
肿瘤外显子测序相信大家都不陌生了,通常都是大队列研究,首先WES相比较于WGS已经是大幅度降低成本了,其次太多超级肿瘤队列已经发表了。 如果你的100人以下的肿瘤外显子队列研究仍然是想发表,一般来说靠的是疾病的特殊性了。 但是实际上肿瘤外显子队列是很烧钱的,通常来说,一个肿瘤病人需要测50X的血液加上200X的肿瘤,基本上3000块钱是跑不了的,100人的队列就是三十好几万了。 那,有没有可能单个肿瘤病人,测一下外显子数据,也是一个独立的课题呢?
这一篇更新一下单细胞空间做轨迹分析的monocle2的认知以及call snp 多组学的时代你说来了吧,也只有大课题组在做,发的文章都是CNS级别,你说没来吧,做的人又非常少,可以做单细胞 + 空间的都不算很多,再加上VDJ 、 外显子 可惜的是这些结果都放在了附图里面,可见作者也知道不能作为主要的分析结果展示 第四点、识别恶性细胞的方法,融合了多组学的信息(单细胞加外显子) (1) Cluster distribution: owing
作者,Evil Genius跟美国人交流的时候,讨论起外显子的CNV检测,国内用的cnvkit居多,但是我翻了很多的推文,感觉都写的很肤浅,美国人问到的问题都比较深入,涉及到算法核心,所以这一篇我们好好梳理一下 这种组合在目标区域实现了外显子水平的分辨率,在较大的内含子和基因间区实现了足够的分辨率,以识别拷贝数的变化。知识背景拷贝数变化是包括癌症在内的许多疾病的有用诊断指标。 对于临床应用,通常更倾向于对基因组分区(如外显子组或一组疾病相关基因)进行测序,以富集感兴趣的区域,并在更高的覆盖范围内对其进行测序,以提高call变异的敏感性。 Bin size and resolution人类基因组中的外显子平均大小约为200bp。选择目标bin大小默认值267,这样拆分较大的外显子将产生最小大小为200的bin。 由于包含较少 reads的bin会导致更嘈杂的拷贝数信号,因此这种方法确保通过分裂较大外显子产生的bin的“噪声”不会比平均水平差。
小编最近在统计基因组内每个基因的外显子长度,原以为非常简单,直接查找外显子的位置计算就可以,但写脚本的时候才发现非常麻烦。 因为基因组中很多外显子区域是重合的,粗暴的将每个外显子的长度加在一起是不对的,这时我们可以使用R包"GenomicFeatures "去除外显子重叠的部分,优雅的统计每个基因的外显子长度。 ? R包 library("GenomicFeatures") ## 导入gff3文件 txdb <- makeTxDbFromGFF("genome.gff3",format="gff3") ## 获取外显子位置 exons_gene <- exonsBy(txdb, by = "gene") ## 去除外显子重叠部分,计算外显子长度 exons_gene_len <- lapply(exons_gene,function (x){sum(width(reduce(x)))}) 简单几步,我们就可以准确地计算出每个基因的外显子长度啦!
其中大家以后不可避免的要接触这种组学分析,可能单细胞多一点,但是现在前沿的课题组基本上都是单细胞、空间、外显子组学的联合分析,其中细化的地方还有VDJ,宏基因组等。 但是这是没有任何实际道理的,只是人为的一种判断,但是引入多组学,很多问题就变得非常明显,如下图:如果仅以单细胞表达数据来判断,那么聚类几乎几乎是按照样本分开的,按照经验可以判定去批次失败,但是如果我们引入其他组学,比如外显子和一些临床信息 对于外显子数据的引入,自然会加深生物学问题的认知,其中关于cytotrace的分析很早之前就讲过了,主要是用来分析细胞的分化潜力的,大家有空可以回顾一下。
本次分享的肿瘤外显子研究非常早期了,是2014年发表在Nature GeNetics杂志的:《The genomic landscape of nasopharyngeal carcinoma》。 本次研究纳入了128个NPC患者,涉及3种技术,包括:whole-exome and targeted deep sequencing, as well as SNP array,详情如下: 肿瘤外显子 Affymetrix GeneChip Human Mapping 250K NspI Array ,基本上很难找到关于这个数据的分析介绍,文章写的是 CNAG/AsCNAR algorithms 但是肿瘤外显子和捕获测序 ,就是普通的fastq数据找变异啦,如果你也有类似的肿瘤外显子测序数据,可以看《肿瘤外显子》专栏的目录(节选)如下: (一)读文献并且下载测序数据 (二)质控与去接头 (三)比对 (四)比对结果的质控 文章最重要的图就是显示鼻咽癌在6个通路容易发生突变,包括点突变和拷贝数变异,所以一个全景图就足以展示了: 鼻咽癌在6个通路容易发生突变 文献在附件也给出来了这些突变位点, 当然了如果有服务器也可以自行下载这个肿瘤外显子队列的
Date : [[2022-06-03_Fri]] Tags : #生信/外显子/实践 #生信/外显子/gatk 前言 GATK,即Genome Analysis Toolkit,GATK 在鉴定肿瘤的 个人觉得,如同转录组分析时绕不过的degseq2, limma, edgeR 差异分析三大R 包一样,现在进行肿瘤外显子分析,从gatk入手,可谓是站在巨人的肩膀上。 虽然我们在看各个肿瘤外显子的文章时,其未必用的是gatk 的软件,比如:Multi-region sequencing unveils novel actionable targets and spatial 因此在肿瘤外显子中,我们也一般使用正常对照-肿瘤的测序采样策略,进行配对的分析。以发掘肿瘤细胞中产生的新的突变。 ps:虽然也有tumor only的分析策略,但会有假阳性过多的问题。 以及生信技能树出品的外显子系列文章:肿瘤外显子数据分析指南 · 语雀[19] 癌症基因的somatic mutation calling 流程的评价体系 | 生信菜鸟团[20] gatk官方juypter
作者,Evil Genius美国人不按照套路出牌啊,外显子CNV分析原理及各种注意事项刚给下面的人培训完,结果今天考核的基因融合,真是出事了。 关于外显子基因融合一般采用factora或者genefuse,我们这里采用factora,感兴趣的可以查阅genefuse。 long insert size of DNA fragment forsequencing.这些常见的术语有:1)Intact exon (IE) type fusion,是指融合后完整的保留了原来的外显子 ,未影响原来的外显子结构。 如上图A中Gene A的Exon2和Gene B的Exon1融合后完整的保留了两个外显子的序列;2)Broken exon (BE) type fusion,是指融合后没有保留原来完整的外显子序列。
单细胞研究同样如此,单细胞转录组学(scRNA)可以联合外显子组测序,从而从多个维度来解析单个细胞的生物学特性。 图3 在单细胞转录组数据的基础上,结合全外显子数据进行多组学联合分析。 首先,对于外显子数据进行标准流程的分析从而得到变异信息,利用canopy等软件分析得到样本的克隆结构信息(图3,该图显示样本由4个亚克隆组成,比例分别为:0.786/0.149/0.044/0.021;
肿瘤测序的特点就是需要取恶性肿瘤组织以及该病人的正常对照(癌旁或者血液)组织一起测序, 这样成本就高很多了。而正常对照(癌旁或者血液)组织的左右仅仅是过滤该病人的germline突变,让我们更准确的识别恶性肿瘤组织的somatic突变。
计算非冗余外显子长度 安装gtftools(http://www.genemine.org/gtftools.php) micromamba activate RNA micromamba install Genomics/GENCODE/release_42/HS.gencode.v42.annotation.gtf 可以看到gtftools给出了4种基因长度,也给出了计算的方法,第四种方法也叫非冗余外显子长度
本次分享的肿瘤外显子研究非常早期了,是2016年发表在 PNAS 杂志的:《 Whole-exome sequencing identifies multiple loss-of-function mutations 本次研究纳入了NPC患者的原位肿瘤和转移瘤样品: 51 primary tumors (肿瘤外显子) 8 recurrent tumors, 3 of which had matching lymph node metastatic tumors(肿瘤外显子) additional 73 primary tumors (捕获测序技术) RNA sequencing (RNASeq) was performed 病人队列和实验设计有很清晰的流程图: 病人队列和实验设计 肿瘤外显子和捕获测序,就是普通的fastq数据文件的找变异啦,如果你也有类似的肿瘤外显子测序数据,可以看《肿瘤外显子》专栏的目录(节选)如下 的使用 (七)maftools可视化 (八)不同注释软件的比较(上):安装及使用 (八)不同注释软件的比较(中):注释后转成maf文件 (八)不同注释软件的比较(下):可视化比较maf文件 文章的《肿瘤外显子
CCDS数据库对小鼠来说: ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_mouse 如果我们想拿到全部的外显子坐标,这里我以小鼠为例子。 78836592 Gm20806 0 + chrY 79148877 79149660 Gm20917 0 + chrY 85528609 85529392 Gm20854 0 + 有些同学可能会问,为什么我要把外显子坐标前后延伸 另外还有同学会问,这样的全部外显子坐标在哪些场合用得上呢? 最后,可能还有同学会问,前面提到的ccds数据库的ftp网站全部文件有没有可能批量下载呢?
此外,对30个外显子组的比较研究表明,由于提高了短reads的比对率,GRCh38在变异识别上具有优越性15。 在本研究中,我们评估了参考基因组版本的变化对外显子组变异识别和解释的影响。 外显子组测序 如前面所述,外显子组捕获和测序是在贝勒医学院的人类基因组测序中心作为CMG项目的一部分所执行29。 注意,这里显示的变异数目包括外显子和外显子边界100 bp内区域的变异 (EAS,东亚人;AMR,混杂美国人;欧洲人;SAS,南亚人;AFR,非裔美国人)。 每个外显子组中,平均有1422个SNVs和267个indesl识别为不一致,相当于每个外显子组中<3%的变异。
无论是单细胞、空间、外显子、还包括宏基因组,大部分样本都还是临床肿瘤样本,而肿瘤与免疫几乎是一个永恒的话题,前面提到过,基因过量表达多发生在细胞癌变的起始阶段,基因点突变可能是细胞癌变启动阶段的一个主要事件 ,这一阶段的可逆性较大;对于基因表达,单细胞技术可以提供很好的帮助,对于突变,就需要借助外显子,对于免疫治疗,就需要空间、VDJ和外显子多组学的内容了。
作者,Evil Genius之前分享了很多关于多组学的内容了,其中涉及到外显子的部分分析呢,我基本都一笔带过了,很多高分文章都运用到了外显子突变类的信息分析,以下为文章示例示例一示例二示例三,文章:A atlas of neuroblastoma reveals developmental, epigenetic and spatial axis of tumor heterogeneity示例5示例6其中外显子 SNV的分析,主要还是集中在基因组层面,我也写过了很多文章外显子数据分析汇报汇总外显子拷贝数分析之cnvkit外显子数据分析之基因融合factora肿瘤特检关于cancer hotspot的简单记录单细胞空间突变信息分析导论肿瘤突变负荷 (TMB)及计算方法肿瘤突变位点临床解读数据库:CIVIC、JAX CKB、My Cancer Genome以及分享了各种数据库,我们要不要来一遍外显子的分析课程? 课表已备好第一节:外显子分析基础知识与框架第二节:fastq数据处理到call SNV + 基础认知第三节(可能需要拆分成2节课):各大数据库如何注释突变信息(clinvar、cosmic、gnomad