生信技能树学习笔记 参考基因组准备 常用参考基因组 Ensembl asia.ensembl.org/index.html NCBI UCSC ## 进入参考基因组目录 mkdir -p $HOME/database /GRCh38.105 cd $HOME/database/GRCh38.105 ## 下载基因组 ## 一般选择primary assembly,没有的话可以选择toplevel nohup wget release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log & ## 下载转录组序列 > 开头,序列名称&序列描述 序列中允许空格、换行、空行,直到下一个 > ,表示该序列结束 gff/gtf 文件介绍 第三列 属性的类型,gff和gtf的区别 第九列 属性的特征 Ensembl基因组数据库 ENSMUSG ENSG 人默认没有物种前缀 比对 Hisat2, Subjunc 比对内容 建索引 比对参考基因组 sam转bam Hisat2 主要参数 -x 索引文件的前缀 -1 双端测序结果的第一个文件
近年来空间转录组技术出现在人们的视野中,由于这项技术不仅能够获得转录组的表达信息,同时还能对基因进行定位,因此受到研究者们的追捧。空间转录组技术到底是什么?它有什么用?应该怎么用? 因此空间转录组整合了基因表达和空间位置两种信息,实现对基因的定位。 ? 小鼠肾脏的空间聚类和基因表达 二、空间转录组有什么用? 空间转录组技术可以帮助我们更准确的了解疾病的病理信息;空间转录组可以消除组织分离带来的偏差。 空间转录组技术无需进行组织解离,避免了在解离过程中造成的细胞损伤;空间转录组有助于异质组织中细胞类型的识别。 ? 空间转录组可以保留组织和细胞的微环境信息 三、空间转录组是怎么实现的? 实验流程 三、空间转录组如何应用? 整合空间转录组和单细胞转录组揭示胰腺导管腺癌的组织结构 ?
一、什么是空间转录组? 空间转录组,也称为 spatial gene expression,简称 ST-seq,是将转录组学,单细胞测序技术以及组织切片技术结合起来的技术。 传统的转录组可以得到基因的差异表达信息,单细胞转录组提供了更高分辨率的基因表达信息,可以分辨出不同细胞的类型,而空间转录组在此基础之上,还可以得到不同类型细胞的空间分布信息,分辨率进一步提高。 样品切片信息 切片+单细胞得到的空间转录组 二、为什么要做空间转录组? 空间转录组将组织切片与转录组测序结合,实现空间信息和转录本信息的获取。 四、空间转录组建库 由于空间转录组相比于单细胞转录组多了空间信息,因此 10X Visium 的实验可以分为两个板块——组织学板块和组学板块。
生信技能树学习笔记 关于转录组的综述 • A comprehensive evaluation of normalization methods for illuminating high-thoughput 转录组分析的几种策略 A和b是有参考序列的c是没有参考序列的物种,a是以基因组为参考序列,b是以转录组为参考序列。 测序原理 1.中心法则 2.转录组是指所有RNA的转录本,可以是单个细胞也可以是一群细胞。 RNA分为编码和非编码RNA,非编码RNA又可以分为 RNA根据质量(A)和数目(B)排序,如下 主要在于建库方式有所不同,提取RNA对象不同 • mRNA:RNA-Seq,普通转录组测序 • lncRNA 普通转录组测序流程 1.RNA样品检测 高质量的RNA是整个项目成功的基础。
一、转录组概述图片综述:A survey of best practices for RNA-seq data analysis 图片图片转录组测序原理中心法则图片图片图片mRNA测序实验流程图片测序的原理 :边合成边测序(SBS)linux命令复习图片图片图片图片目录管理#详细命令```bash# 进入到个人目录cd ~## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息
转录组数据分析一般流程转录组测序原理SBS(Sequencing-By-Synthesis):通过单分子阵列实现在小型芯片(Flowcell)上进行 桥式PCR反应。 通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱基信息基于 可逆终止的、荧光标记dNTP,边合成边测序转录组:组织或所有细胞中包含所有类型的RNA转录集合 mRNA: RNA-Seq,普通转录组测序lncRNA:lncRNA-Seq,一般采用链特异性测序miRNA: miRNA-Seq,小RNA测序circRNA: cirRNA-seq,一般有两种,消化性线性 RNA建库或者去rRNA建库转录组测序实验流程1.
是否组内样本的重复性合格?是否前期设置的组与组间可以分开? ——功能的富集分析1、功能富集分析的原因一组基因直接注释的结果是得到大量的功能结点。 富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over- presentation)。由单个基因的注释分析发展到大基因集合的成组分析。和随机比较,关注的基因集显著注释的功能节点。
本篇内容引自生信技能树 一、课前背景 1、转录组数据分析一般流程 2、转录组概述 (1)分析准备 课题实验设计、测序方案选择,不同数据质控点 (2)核心分析 表达定量、差异表达分析、功能层面解释 (3) 高级分析内容(自学) 可视化、其它RNA组学、其它组学联合分析 3、转录组的几种分析策略 (a)有参考的DNA基因组序列 (b)有参考的转录组层面的RNA序列 (c)没有基因标准参考的序列 4、应用案例 (1)airway data(课上使用数据) (2)肺癌耐药关键gene筛选(课上实战案例) (3)非模式物种辣椒(课上实战案例) (4)非模式物种人参(课上实战案例) 5、转录组测序原理——中心法则 基因组学、转录组、蛋白组、代谢组、表观组(DNA上的遗传表观:甲基化、乙酰化;RNA上的表观调控)、互作组(蛋白质之间,RNA之间,DNA序列和转录因子之间) 6、转录组概念 (1)转录组的概念 一群细胞或所有细胞里面的所有 ,所以转录组数据里面一定是有重复的。
一、转录组概述转录组-课前背景二、准备工作——目录管理三、.FASTQ数据介绍以及QC转录组-课前背景四、质控——数据质量评估1、FastQC软件FastQC主页:http://www.bioinformatics.babraham.ac.uk 5、trim_galore运行结果五、数据比对——参考基因组准备1.基因组文件:fasta2.注释文件:gff/gtf1、常用参考基因组数据库Ensembl:www.ensembl.orgNCBI:https <id>.fa.gz 详细见https://ftp.ensembl.org/pub/release-111/fasta/homo_sapiens/dna/README## 参考基因组准备:注意参考基因组版本信息 pub/release-113/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log 下载转录组序列 ①E:外显子;G:基因;T:转录本②基因ID和基因名字;转录本ID和转录本名字;③可以在Ensembl基因组数据库里直接搜某个基因名字和物种去查看它相应的转录本等等,这个也就是gtf文件所呈现的内容,即对
转录组数据分析主要参考了生信技能树Jimmy老师的相关课程及推文。 RNA-seq的read count普遍认为符合泊松分布,但是之前分析过的芯片数据符合正态分布,所以筛选DEGs的方法有一定差别。 BioMart网页工具的原始界面如下所示: 其中左侧菜单栏分别是Dataset--选择相关物种参考基因组; Filters--选择数据gene ID的类型,并输入gene ID,也存在其他类型的
kallisto是2016年发表在Nature Biotechnology上的一个比对工具,可以将bulk或者single-cell RNA-Seq数据的序列直接比对到转录组,然后进行转录本鉴定及定量。 kallisto的优势在于比对速度很快,这是因为用了一种伪比对方法,即将k-mers比对到参考转录组上。在用20套模拟数据与以往其他软件速度比较中,kallisto速度明显更快: ? 1. 创建索引 kallisto index ${dir}/trancripts.fasta -i ${dir}/trans_index 提供fasta转录组序列生成索引文件。 3. 可视化 --genomebam选项可以实现,此外还需要两个额外文件,一个是gtf文件,里面有每个转录组在染色体中的位置;另外一个是每个染色体的长度文件。
转录组数据:本身存在一定的read重复,qc报告非常容易出现警告或者红色xx,应该看具体的重复率,但重复率不应该过高比如超过70%。
其他来源的转录组数据和TCGA的转录组数据的差别?整理输入数据的过程不同,差异分析无差别。数据下载方式不同,是否是count矩阵,行名需要是基因名,分组信息如何获取。 logFC_t)DEG2$change = ifelse(k1,"DOWN",ifelse(k2,"UP","NOT"))head(DEG2)table(DEG2$change)limma#####limma做转录组差异分析 成一簇:说明画热图的基因在两个分组间有明显的表达模式;不成一簇:说明画热图的基因在两个分组间表达模式不是特别明显;换一组基因或者增删基因,可能改变聚类的结果。
生信技能树学习笔记 首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。 这个过程需要两种文件1.基因组文件:fasta 2.注释文件:gff/gtf 常用参考基因组数据库 Ensembl:www.ensembl.org -ensembl下载 ## 参考基因组准备:注意参考基因组版本信息下载,Ensembl:http://asia.ensembl.org/index.html http://ftp.ensembl.org homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log & 下载cDNA信息 cDNA下载红色部分显示链接 # 下载转录组序列 参考基因组注释gff格式 Gff文件第九列详解 Gtf文件 Ensembl基因组数据库 注:人类的数据中不显示物种信息 补充 fastq转换成fasta # 方法1zless -S SRR1039511
存放数据分析,项目分析等各种分析结果project_backup:存放备份的数据tools:存放小的代码工具等地方pipeline:存放分析流程database:存放公共数据库如不同物种人、大鼠、小鼠参考基因组等 biosoft:存放下载的各种软件包等1.1 详细命令# 进入到个人home目录,技能树提供的工作目录就是home家目录cd ~## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息 Diff_Analysis# 默认展开所有层,使用-L参数控制展开的目录层级tree ./ -L 1 # 查看整个分析目录准备结构tree ./## 示例如下:├── database # 数据库存放目录,包括参考基因组,
我在我在04-转录组笔记推文任务列表(半年期)里面安排了6个经典综述和10篇转录组应用文献给大家,可惜愿意沉下心了认真苦学的并不多。 (https://share.mubu.com/doc/14uneHKvPg) 所以安排转录组讲师给大家做一下领读: 下面是转录组讲师的投稿 1 文章信息 标题:Circular RNA circNHSL1 关键词:CircNHSL1, miR-1306-3p, SIX1, Vimentin, Metastasis, Gastric cancer 2 数据和方法 转录组的标准分析,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可 验证结果如下: 4 SIX1通过转录调节vimentin的表达,促进胃癌的进展 作为同源箱基因家族的转录因子,SIX1可能在转录水平上调控靶基因的表达,从而发挥生物学功能。 数据:在本研究中,我们使用另一组胃癌组织(一个TMA,包括54个成对的胃癌组织和匹配的正常组织)在ISH中检测miR-1306-3p的水平。ISH测得miRNA得表达。
转录组和代谢组是生物学研究中常用的两种高通量技术。转录组主要用于探究不同处理下基因的表达变化,但是难以确定关键途径,也无法鉴定控制关键途径的结构。 代谢组与转录组的关联分析可在一定程度上克服上述单一组学研究的局限性,从而在代谢通路上更好地解释转录调控机制。 如何对转录组和代谢组数据进行联合分析仍是一个具有挑战性的问题。 目前,转录组和代谢组的联合分析主要分为两大部分,一是寻找共同的KEGG通路和富集功能;二是进行相关性的关联分析。 上述文章算是两种组学分析中较为顺利的一篇文章。在实际分析中,不论哪两组组学联合分析,通过寻找共同具有统计学意义上显著性共享通路其实是很难找到的,特别是代谢组和转录组的联合分析。 转录组学重点是对显著上调表达的DEGs进行GO功能注释,结果发现了PDHB最为显著影响的细胞分解代谢过程。
引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! 简介 基于测序的空间转录组(ST)数据在每个 spot 中可能包含 0 到多个细胞,这些细胞可能完全被 spot 覆盖,也可能只是部分被覆盖,具体取决于平台的空间分辨率以及组织细胞的密度。 数据的这一特点意味着一个 spot 内可能存在细胞类型的混合,因此也会出现转录程序的混合。 deep learning-based:利用神经网络对齐并整合单细胞与空间转录组数据。例如 Python 中的 Tangram。
(3) 去除含有N(无法确定碱基信息)的比例大于5%的reads;(可以根据实际情况)
含量分布 Sequence Length Distribution——长度分布 Sequence Duplication levels——序列的重复度 Overrepresented sequences——转录组中某个