生信技能树学习笔记 比对过程: • 1.建索引 • 2.比对参考基因组 • 3.sam转bam 用到的软件——Hisat2 Hisat2主要是用来进行转录组数据的比对。 hisat2主要参数: ## ----构建索引# 进入参考基因组目录cd $HOME/database/GRCh38.105# Hisat2构建索引,构建索引时间比较长,建议提交后台运行,一般会运行20 多个样本比对 这里需要用到管道符|串联 比对参考基因组 和 sam转bam两个步骤 这里的2代表下面这个程序中输出的过程,并将其重定向到样本对应的log文件中 关注点: • 总比对率:一般都能在80%以上 详解 CIGAR string,简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M ,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的,字母的含义如下 sam/bam文件查看 samtools工具:http://www.htslib.org
是其中最常见,数量最多的一种转录后修饰,不仅在mRNA上存在,在tRNA, rRNA, lncRNA上也都存在,只不过研究最多的是mRNA上的m6A。 m6A这个名字来源于发生甲基化修饰的位置 ? 腺苷酸第6位的N上发生了甲基化修饰,即N6-methyladenosine, 简称m6A。 不同的Reads介导m6A位点发挥不同的下游功能, 包括RNA的转运,mRNA稳定性,可变剪切等多种过程。 研究转录组m6A修饰有多种技术,示意如下 ? m6A, 距离远的位点无法检测到;图c表示miCLIP, 是PA-m6A-seq的加强版, 客服了距离限制, 在保证单碱基分辨率的基础上可以识别到更多的m6A位点;图d表示m6A-LAIC-seq, 目前, m6A-seq仍然是最常见的研究m6A修饰的技术,分析内容包括数据质控,比对基因组,peak calling, peak基因注释,差异peak分析,motif预测等等,大部分分析内容和chip_seq
近年来空间转录组技术出现在人们的视野中,由于这项技术不仅能够获得转录组的表达信息,同时还能对基因进行定位,因此受到研究者们的追捧。空间转录组技术到底是什么?它有什么用?应该怎么用? 因此空间转录组整合了基因表达和空间位置两种信息,实现对基因的定位。 ? 小鼠肾脏的空间聚类和基因表达 二、空间转录组有什么用? 空间转录组技术可以帮助我们更准确的了解疾病的病理信息;空间转录组可以消除组织分离带来的偏差。 空间转录组技术无需进行组织解离,避免了在解离过程中造成的细胞损伤;空间转录组有助于异质组织中细胞类型的识别。 ? 空间转录组可以保留组织和细胞的微环境信息 三、空间转录组是怎么实现的? 实验流程 三、空间转录组如何应用? 整合空间转录组和单细胞转录组揭示胰腺导管腺癌的组织结构 ?
一、什么是空间转录组? 空间转录组,也称为 spatial gene expression,简称 ST-seq,是将转录组学,单细胞测序技术以及组织切片技术结合起来的技术。 传统的转录组可以得到基因的差异表达信息,单细胞转录组提供了更高分辨率的基因表达信息,可以分辨出不同细胞的类型,而空间转录组在此基础之上,还可以得到不同类型细胞的空间分布信息,分辨率进一步提高。 样品切片信息 切片+单细胞得到的空间转录组 二、为什么要做空间转录组? 空间转录组将组织切片与转录组测序结合,实现空间信息和转录本信息的获取。 四、空间转录组建库 由于空间转录组相比于单细胞转录组多了空间信息,因此 10X Visium 的实验可以分为两个板块——组织学板块和组学板块。
生信技能树学习笔记 参考基因组准备 常用参考基因组 Ensembl asia.ensembl.org/index.html NCBI UCSC ## 进入参考基因组目录 mkdir -p $HOME/database /GRCh38.105 cd $HOME/database/GRCh38.105 ## 下载基因组 ## 一般选择primary assembly,没有的话可以选择toplevel nohup wget release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log & ## 下载转录组序列 > 开头,序列名称&序列描述 序列中允许空格、换行、空行,直到下一个 > ,表示该序列结束 gff/gtf 文件介绍 第三列 属性的类型,gff和gtf的区别 第九列 属性的特征 Ensembl基因组数据库 ENSMUSG ENSG 人默认没有物种前缀 比对 Hisat2, Subjunc 比对内容 建索引 比对参考基因组 sam转bam Hisat2 主要参数 -x 索引文件的前缀 -1 双端测序结果的第一个文件
我在我在04-转录组笔记推文任务列表(半年期)里面安排了6个经典综述和10篇转录组应用文献给大家,可惜愿意沉下心了认真苦学的并不多。 (https://share.mubu.com/doc/14uneHKvPg) 所以安排转录组讲师给大家做一下领读: 下面是转录组讲师的投稿 文章信息 标题:Genomic and Transcriptomic 在这项研究中,我们进行了一项聚焦于sMTC基因组和转录组特征的研究。 方法:纳入29例sMTC患者。对18名患者进行了全外显子组测序(WES),包括肿瘤样本和匹配的非癌组织。 29例肿瘤均进行了全转录组测序(RNA-Seq)。分析WES、RNA-Seq和拷贝数改变(CNA)数据。采用细胞计数Kit-8 (CCK-8)检测细胞增殖。 总结 问题1:转录组(GRCh38)和基因组(GRCh37)的数据分析没有使用同一个参考基因组没有问题么?后面通过gene symbol将两个层面的数据联系起来?
背景介绍 单细胞研究一直是近些年的热点,今天小编为大家带来的这篇文章,作者通过单细胞与转录组数据,基于恶性细胞标志物的表达构建了胃腺癌 (STAD) 患者生存不良的多基因风险评分 (PRS)。 并进行了GSEA分析,结果表明八个细胞簇富含各种标志性基因组(图 3C)。 将STAD 患者分为高危组或低危组,发现高风险组患者的 OS(图 4D)和 PFS(图 4E)短于低风险组患者,与常规临床病理因素相比,PRS 是一个独立的预后因素(图 4F)。 在数据集 GSE84437(图 6A)、GSE6229(图 6B)和 GSE26942(图 6C)中,高风险组患者的 OS 短于低风险组患者。 图 5 图 6 小编总结 本研究的局限性:首先,scRNA-seq 配置文件来自早期 STAD;因此,可以识别的恶性细胞亚群可能是有限的。
生信技能树学习笔记 关于转录组的综述 • A comprehensive evaluation of normalization methods for illuminating high-thoughput 转录组分析的几种策略 A和b是有参考序列的c是没有参考序列的物种,a是以基因组为参考序列,b是以转录组为参考序列。 测序原理 1.中心法则 2.转录组是指所有RNA的转录本,可以是单个细胞也可以是一群细胞。 RNA分为编码和非编码RNA,非编码RNA又可以分为 RNA根据质量(A)和数目(B)排序,如下 主要在于建库方式有所不同,提取RNA对象不同 • mRNA:RNA-Seq,普通转录组测序 • lncRNA 普通转录组测序流程 1.RNA样品检测 高质量的RNA是整个项目成功的基础。
转录组数据分析一般流程转录组测序原理SBS(Sequencing-By-Synthesis):通过单分子阵列实现在小型芯片(Flowcell)上进行 桥式PCR反应。 通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱基信息基于 可逆终止的、荧光标记dNTP,边合成边测序转录组:组织或所有细胞中包含所有类型的RNA转录集合 mRNA: RNA-Seq,普通转录组测序lncRNA:lncRNA-Seq,一般采用链特异性测序miRNA: miRNA-Seq,小RNA测序circRNA: cirRNA-seq,一般有两种,消化性线性 RNA建库或者去rRNA建库转录组测序实验流程1.
一、转录组概述图片综述:A survey of best practices for RNA-seq data analysis 图片图片转录组测序原理中心法则图片图片图片mRNA测序实验流程图片测序的原理 :边合成边测序(SBS)linux命令复习图片图片图片图片目录管理#详细命令```bash# 进入到个人目录cd ~## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息
是否组内样本的重复性合格?是否前期设置的组与组间可以分开? (推文):https://mp.weixin.qq.com/s/vnhX_C0G7L6AoRK-Jkkv2Qkegg pathway 通路高亮标记基因(推文):https://mp.weixin.qq.com /s/GZ4mILvzM6LuaaNa7feAOg2、 查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)从通过差异表达分析获得airway数据集trt和untrt间差异表达基因集合:共640个基因进入 ——功能的富集分析1、功能富集分析的原因一组基因直接注释的结果是得到大量的功能结点。 https://mp.weixin.qq.com/s/1T7GS00uJzHwCAcmvDm6qg
本篇内容引自生信技能树 一、课前背景 1、转录组数据分析一般流程 2、转录组概述 (1)分析准备 课题实验设计、测序方案选择,不同数据质控点 (2)核心分析 表达定量、差异表达分析、功能层面解释 (3) 高级分析内容(自学) 可视化、其它RNA组学、其它组学联合分析 3、转录组的几种分析策略 (a)有参考的DNA基因组序列 (b)有参考的转录组层面的RNA序列 (c)没有基因标准参考的序列 4、应用案例 基因组学、转录组、蛋白组、代谢组、表观组(DNA上的遗传表观:甲基化、乙酰化;RNA上的表观调控)、互作组(蛋白质之间,RNA之间,DNA序列和转录因子之间) 6、转录组概念 (1)转录组的概念 一群细胞或所有细胞里面的所有 ,百万; 有多少碱基,G是10的9次方,十亿,转录组一般测6个G; Q20至少要在85%以上,Q30要在90%以上。 ,所以转录组数据里面一定是有重复的。
一、转录组概述转录组-课前背景二、准备工作——目录管理三、.FASTQ数据介绍以及QC转录组-课前背景四、质控——数据质量评估1、FastQC软件FastQC主页:http://www.bioinformatics.babraham.ac.uk *:使用less 命令查看 qc.log 运行动态报错等,目录中是否有正常文件结果生成# 使用FastQC软件对单个fastq文件进行质量评估,结果输出到qc/文件夹下nohup fastqc -t 6 5、trim_galore运行结果五、数据比对——参考基因组准备1.基因组文件:fasta2.注释文件:gff/gtf1、常用参考基因组数据库Ensembl:www.ensembl.orgNCBI:https pub/release-113/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log 下载转录组序列 ①E:外显子;G:基因;T:转录本②基因ID和基因名字;转录本ID和转录本名字;③可以在Ensembl基因组数据库里直接搜某个基因名字和物种去查看它相应的转录本等等,这个也就是gtf文件所呈现的内容,即对
构建原始dds矩阵并保存为Rdata对象 6. 原始dds矩阵标准化并保存 7. 提取差异分析的结果 8. 绘制火山图 9. 转录组数据分析主要参考了生信技能树Jimmy老师的相关课程及推文。 RNA-seq的read count普遍认为符合泊松分布,但是之前分析过的芯片数据符合正态分布,所以筛选DEGs的方法有一定差别。 7428 4 head(exprset) head(exprset) control1 control2 treat1 treat2 ENSMUSG00000000028 27 0 0 6 23 79 0 1 ENSMUSG00000000142 6 10 0 0 3. BioMart网页工具的原始界面如下所示: 其中左侧菜单栏分别是Dataset--选择相关物种参考基因组; Filters--选择数据gene ID的类型,并输入gene ID,也存在其他类型的
传统病理无法区分皮层亚层,Loki分解出6类细胞:VLMC/星形胶质细胞(L1)、兴奋性神经元(L2/3,L4/5,L6)、白质(WM),其空间分布符合已知脑解剖学。 4. 组织学图像-转录组学检索(Histology Image-Transcriptomics Retrieval) 图6a为ST-bank数据集上图像到转录组学检索的示意图。 (按相似度排序)(图6b)。 图6c表示在四个验证数据集(CRC7K结直肠癌、WSSS4LUAD肺腺癌、LC25000肺/结肠、PatchCamelyon淋巴结)中,Loki、OpenAI CLIP和PLIP进行图像到转录组学的检索相似性评分 图6d表示在八组内部临床样本(心力衰竭HF1-4、阿尔茨海默病AD1-2、化生性乳腺癌MPBC、三阴性乳腺癌TNBC)中,Loki与其他方法得到的检索相似性评分。
作者对结直肠癌患者的单细胞转录组数据进行分析,分别鉴定m6A介导的TME细胞亚群并鉴定这些细胞亚群的预后价值和预测免疫治疗反应的价值。 转录组数据分析表明,m6A介导的TME细胞亚群具有显著的预后价值并且可以区分接受ICB治疗有反应组和无反应组。 CRC样本的TME细胞的m6A调控因子 作者使用CRC的单细胞转录组数据集研究m6A RNA甲基化调控因子的情况(图1A)。 image.png 图1 单细胞转录组数据集中m6A甲基化调控因子的水平 3. m6A介导的成纤维细胞有助于CRC患者的TME 伪时间轨迹分析表明m6A RNA调控因子在成纤维细胞,NK细胞,巨噬细胞, 图6 细胞间通讯分析 结论 总的来说,作者首次使用单细胞转录组数据鉴定特异性m6A修饰的TME细胞亚型,揭示了m6A甲基化介导的肿瘤微环境细胞间通讯在调控肿瘤生长和抗肿瘤免疫调节中的作用。
kallisto是2016年发表在Nature Biotechnology上的一个比对工具,可以将bulk或者single-cell RNA-Seq数据的序列直接比对到转录组,然后进行转录本鉴定及定量。 kallisto的优势在于比对速度很快,这是因为用了一种伪比对方法,即将k-mers比对到参考转录组上。在用20套模拟数据与以往其他软件速度比较中,kallisto速度明显更快: ? 1. 创建索引 kallisto index ${dir}/trancripts.fasta -i ${dir}/trans_index 提供fasta转录组序列生成索引文件。 3. 可视化 --genomebam选项可以实现,此外还需要两个额外文件,一个是gtf文件,里面有每个转录组在染色体中的位置;另外一个是每个染色体的长度文件。
其他来源的转录组数据和TCGA的转录组数据的差别?整理输入数据的过程不同,差异分析无差别。数据下载方式不同,是否是count矩阵,行名需要是基因名,分组信息如何获取。 logFC_t)DEG2$change = ifelse(k1,"DOWN",ifelse(k2,"UP","NOT"))head(DEG2)table(DEG2$change)limma#####limma做转录组差异分析 paste0(proj,"_DEG.Rdata"))三大R包差异基因对比UP=function(df){rownames(df)[df$change=="UP"]}###3个数据,上下调分开提取,写6行代码 ,产生6个变量-可以有上面的代码。 成一簇:说明画热图的基因在两个分组间有明显的表达模式;不成一簇:说明画热图的基因在两个分组间表达模式不是特别明显;换一组基因或者增删基因,可能改变聚类的结果。
转录组数据:本身存在一定的read重复,qc报告非常容易出现警告或者红色xx,应该看具体的重复率,但重复率不应该过高比如超过70%。
生信技能树学习笔记 首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。 这个过程需要两种文件1.基因组文件:fasta 2.注释文件:gff/gtf 常用参考基因组数据库 Ensembl:www.ensembl.org -ensembl下载 ## 参考基因组准备:注意参考基因组版本信息下载,Ensembl:http://asia.ensembl.org/index.html http://ftp.ensembl.org homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log & 下载cDNA信息 cDNA下载红色部分显示链接 # 下载转录组序列 chr.gtf.gz |awk -F'\t' '{if($3=="gene"){print$9}}' |awk -F';' '{print$1,$3,$5}' |awk '{print$2"\t"$4"\t"$6}