通过isoseq collapse和pigeon,我们最终能得到带有基因注释的表达矩阵,后续基因的差异分析,差异基因的KEGG注释等都和二代RNA-seq类似了。 Isoseq 数据分析第一部分我们最后使用了isoseq cluster 获得了聚类后高质量的转录本,但是我们仍然不知道这些经过聚类的转录本在基因组的位置以及属于哪些基因? 下面我们通过使用isoseq collapse和 pigeon对转录本(isoforms)进行在参考基因组指导下的进一步合并(collapse),注释,分类和定量。 一、Iso-Seq Collapse 在isoseq cluster完成以后,我们首先需要将高质量全长isoforms回贴到参考基因组上,然后进行isoseq collapse。 refine all.fofn IsoSeq_v2_primers_12.fasta UHRR.flnc.bam --require-polya #cluster,转录本聚类 $ isoseq cluster2
Github主页:https://github.com/PacificBiosciences/IsoSeq软件安装:isoseq和lima#使用conda安装isoseq,v4.0.0. $ conda _primers_12.fasta human_80k.bam --isoseq --peek-guess对于iso-seq数据,使用--isoseq加--peek-guess参数来降低假阳性率。 $ isoseq refine human_80K.IsoSeqX_bc10_5p--IsoSeqX_3p.bam IsoSeq_v2_primers_12.fasta human_80K.flnc.bam (4)refine,使用isoseq refine去除poly(A)和嵌合体(concatemer)序列# Remove poly(A) tails and concatemer$ isoseq refine -verbose --use-qvs这里使用isoseq cluster,而不是isoseq cluster2, cluster相比于cluster2比较耗时。
PacBio平台:Lima与IsoSeq3的珠联璧合 对于PacBio平台,其全长转录本的鉴定流程通常较为自动化且高效。 精修(Refine)与嵌合体去除 尽管lima已经去除了大部分非全长序列,但为了进一步确保序列的“纯度”,特别是去除潜在的转录本嵌合体(即两个不相关转录本错误连接在一起的序列),PacBio官方提供了IsoSeq3 “如果想进一步去除序列中可能残余的poly(A)尾,以及一些在建库过程中偶发产生的转录本嵌合体,可以使用IsoSeq3的refine命令,如图中第三步所示。”李老师补充道。
Valid choices: (SUBREAD, CCS, ISOSEQ, UNROLLED). Alignment modes of --preset: SUBREAD : -k 19 -w 10 CCS or HiFi : -k 19 -w 10 -u ISOSEQ Valid choices: (SUBREAD, CCS, HIFI, ISOSEQ, UNROLLED). -r). [-1] -C INT Cost for a non-canonical GT-AG splicing (effective in ISOSEQ preset). [-1] --no-splice-flank Do not prefer splice flanks GT-AG (effective in ISOSEQ
三、ONT全长转录组的分析流程PacBio全长转录组有官方自己开发优化的转录本聚类软件软件和流程,IsoSeq(https://isoseq.how/)。 一类是依赖参考基因组及其注释文件,如FLAIR,TAMA,TALON等;一类是reference-free,如IsoSeq, LyRic。
支持预设参数,以适应不同类型的PacBio数据(如SUBREAD, CCS, ISOSEQ, UNROLLED)。
我们建议在使用SQANTI 3 前,先用cDNA_Cupcake(现在是isoseq collapse)或TAMA Collapse等工具来合并冗余的isoform,以供isoform的数量和质量。 isoseq collapse 所产生的 *.collapsed.gff是.gff2格式,和sqanti3_qc.py输入文件.gtf格式一样,所以是通用的。不需要用gffread进行转化。
CCS.fastq \ --reference reference.fasta --genedb genes.gtf --output output_dir 关于Full length全长序列,PacBio可通过isoseq