salmon.readthedocs.io/en/latest/ # 构建salmon索引 salmon index -t Homo_sapiens.GRCh38.cdna.all.fa -i salmon_index -t:参考基因组fasta
CIBERSORT原理: 基于支持向量回归(SVR)的一种去卷积算法,用于通过转录组数据估算复杂组织样本中细胞类型的组成。使用预定义的参考基因表达特征矩阵来推断各个细胞类型的比例。 适用场景: 对需要从转录组数据中进行广泛免疫细胞类型注释的研究非常有用。5. MCPcounter原理: 基于特异性标记基因集合,定量评估复杂样本中多个免疫细胞和非免疫细胞的相对丰度。 ● 基于标记基因的方法:这种方法使用一组特定的基因,这些基因是某种细胞类型的特征。这些基因集合通常来源于对每种免疫细胞类型的靶向转录组学研究,或者是通过全面的文献查找和实验验证得出的。 另外,转录组测序数据与芯片数据计算过程的主要不同是platform选项修改为illumina。 lihc_genes.gct", output.ds = "lihc_estimate_score.gct", platform = "illumina") # 转录组需要用
近年来空间转录组技术出现在人们的视野中,由于这项技术不仅能够获得转录组的表达信息,同时还能对基因进行定位,因此受到研究者们的追捧。空间转录组技术到底是什么?它有什么用?应该怎么用? 因此空间转录组整合了基因表达和空间位置两种信息,实现对基因的定位。 ? 小鼠肾脏的空间聚类和基因表达 二、空间转录组有什么用? 空间转录组技术可以帮助我们更准确的了解疾病的病理信息;空间转录组可以消除组织分离带来的偏差。 空间转录组技术无需进行组织解离,避免了在解离过程中造成的细胞损伤;空间转录组有助于异质组织中细胞类型的识别。 ? 空间转录组可以保留组织和细胞的微环境信息 三、空间转录组是怎么实现的? 实验流程 三、空间转录组如何应用? 整合空间转录组和单细胞转录组揭示胰腺导管腺癌的组织结构 ?
一、什么是空间转录组? 传统的转录组可以得到基因的差异表达信息,单细胞转录组提供了更高分辨率的基因表达信息,可以分辨出不同细胞的类型,而空间转录组在此基础之上,还可以得到不同类型细胞的空间分布信息,分辨率进一步提高。 样品切片信息 切片+单细胞得到的空间转录组 二、为什么要做空间转录组? 空间转录组将组织切片与转录组测序结合,实现空间信息和转录本信息的获取。 四、空间转录组建库 由于空间转录组相比于单细胞转录组多了空间信息,因此 10X Visium 的实验可以分为两个板块——组织学板块和组学板块。 710rRUCP1yM3SV-u65JSyR4mYpNtV~v~y~MwM0hNCSOhgnKnTwyfcIhg7GiCt5H6gYUiP0wBJFPSYNr5PCydNDJW5AsJF-CtvzIPWQaypCh8DgNEeAnFXm5tn8kO
生信技能树学习笔记 参考基因组准备 常用参考基因组 Ensembl asia.ensembl.org/index.html NCBI UCSC ## 进入参考基因组目录 mkdir -p $HOME/database /GRCh38.105 cd $HOME/database/GRCh38.105 ## 下载基因组 ## 一般选择primary assembly,没有的话可以选择toplevel nohup wget release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log & ## 下载转录组序列 > 开头,序列名称&序列描述 序列中允许空格、换行、空行,直到下一个 > ,表示该序列结束 gff/gtf 文件介绍 第三列 属性的类型,gff和gtf的区别 第九列 属性的特征 Ensembl基因组数据库 ENSMUSG ENSG 人默认没有物种前缀 比对 Hisat2, Subjunc 比对内容 建索引 比对参考基因组 sam转bam Hisat2 主要参数 -x 索引文件的前缀 -1 双端测序结果的第一个文件
生信技能树学习笔记 关于转录组的综述 • A comprehensive evaluation of normalization methods for illuminating high-thoughput 转录组分析的几种策略 A和b是有参考序列的c是没有参考序列的物种,a是以基因组为参考序列,b是以转录组为参考序列。 测序原理 1.中心法则 2.转录组是指所有RNA的转录本,可以是单个细胞也可以是一群细胞。 RNA分为编码和非编码RNA,非编码RNA又可以分为 RNA根据质量(A)和数目(B)排序,如下 主要在于建库方式有所不同,提取RNA对象不同 • mRNA:RNA-Seq,普通转录组测序 • lncRNA 普通转录组测序流程 1.RNA样品检测 高质量的RNA是整个项目成功的基础。
转录组数据分析一般流程转录组测序原理SBS(Sequencing-By-Synthesis):通过单分子阵列实现在小型芯片(Flowcell)上进行 桥式PCR反应。 通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱基信息基于 可逆终止的、荧光标记dNTP,边合成边测序转录组:组织或所有细胞中包含所有类型的RNA转录集合 mRNA: RNA-Seq,普通转录组测序lncRNA:lncRNA-Seq,一般采用链特异性测序miRNA: miRNA-Seq,小RNA测序circRNA: cirRNA-seq,一般有两种,消化性线性 RNA建库或者去rRNA建库转录组测序实验流程1. 文库构建(1) 磁珠富集真核生物mRNA(此步骤对RNA的完整性要求比较高, 一般RIN值要大于8);(2) mRNA进行随机打断;(3) 以mRNA为模板,合成第一条cDNA链和第二条cDNA链(4)
一、转录组概述图片综述:A survey of best practices for RNA-seq data analysis 图片图片转录组测序原理中心法则图片图片图片mRNA测序实验流程图片测序的原理 :边合成边测序(SBS)linux命令复习图片图片图片图片目录管理#详细命令```bash# 进入到个人目录cd ~## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息
是否组内样本的重复性合格?是否前期设置的组与组间可以分开? Organism-specific为:hsa选择Optional use of outside类型为:NCBI-GeneID输入MAOA基因(如格式:4128 red,是gene id 以及把该基因标上什么颜色)Q8: ——功能的富集分析1、功能富集分析的原因一组基因直接注释的结果是得到大量的功能结点。 富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over- presentation)。由单个基因的注释分析发展到大基因集合的成组分析。和随机比较,关注的基因集显著注释的功能节点。
本篇内容引自生信技能树 一、课前背景 1、转录组数据分析一般流程 2、转录组概述 (1)分析准备 课题实验设计、测序方案选择,不同数据质控点 (2)核心分析 表达定量、差异表达分析、功能层面解释 (3) 高级分析内容(自学) 可视化、其它RNA组学、其它组学联合分析 3、转录组的几种分析策略 (a)有参考的DNA基因组序列 (b)有参考的转录组层面的RNA序列 (c)没有基因标准参考的序列 4、应用案例 基因组学、转录组、蛋白组、代谢组、表观组(DNA上的遗传表观:甲基化、乙酰化;RNA上的表观调控)、互作组(蛋白质之间,RNA之间,DNA序列和转录因子之间) 6、转录组概念 (1)转录组的概念 一群细胞或所有细胞里面的所有 (6)其他非编码小 RNA/sncRNA之----- piRNA (7)其他sncRNA之----- tsRNA—低丰度 (8)不同RNA在细胞中的绝对数量 (9)不同基因类型之:gene_biotype ,所以转录组数据里面一定是有重复的。
我在我在04-转录组笔记推文任务列表(半年期)里面安排了6个经典综述和10篇转录组应用文献给大家,可惜愿意沉下心了认真苦学的并不多。 (https://share.mubu.com/doc/14uneHKvPg) 所以安排转录组讲师给大家做一下领读: 下面是转录组讲师的投稿 文章信息 标题:Sex-specific adipose least 2 libraries were excluded from downstream analysis 标准化及差异分析:limma 筛选阈值:FDR<0.1和 FC >1.2 数据样本类别: 8个 转录组的标准分析,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可; 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 在VAT T~reg~中我们筛选到了3,833 loci有性别差异,这里面包括Il1rl1, Il10, Pparg and Klrg1,这几个基因也在VAT Treg cells的转录组层面性别差异中
一、转录组概述转录组-课前背景二、准备工作——目录管理三、.FASTQ数据介绍以及QC转录组-课前背景四、质控——数据质量评估1、FastQC软件FastQC主页:http://www.bioinformatics.babraham.ac.uk Sequence Content 每个碱基位置上:ATGC含量的分布图(6)Per sequence GC content GC含量分布图(7)Per base N content N含量分布图(8) 5、trim_galore运行结果五、数据比对——参考基因组准备1.基因组文件:fasta2.注释文件:gff/gtf1、常用参考基因组数据库Ensembl:www.ensembl.orgNCBI:https pub/release-113/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log 下载转录组序列 ①E:外显子;G:基因;T:转录本②基因ID和基因名字;转录本ID和转录本名字;③可以在Ensembl基因组数据库里直接搜某个基因名字和物种去查看它相应的转录本等等,这个也就是gtf文件所呈现的内容,即对
单细胞转录组差异分析之所以困难,主要是由于以下8个方面的原因: 标准化(Normalization)问题: 单细胞数据需要经过标准化来校正PCR扩增偏倚、批次效应以及数据分布的偏差。 这种方法可能有助于克服上述一些挑战,提高单细胞转录组差异分析的准确性和可靠性。 基于广义线性混合模型(GLMM)做单细胞转录组差异分析 在这篇论文中,作者提出了使用广义线性混合模型(Generalized Linear Mixed Model, GLMM)来处理单细胞转录组数据的差异表达分析 作者比较了不同免疫细胞类型,并在不同的场景下评估了各种方法的性能,包括具有显著库大小差异的同质组、库大小相似的同质组和异质组。 数据集涉及8种不同的细胞类型,每个细胞类型分为未刺激对照组和IFN-β刺激组。
提取差异分析的结果 8. 绘制火山图 9. 简单gene ID转换 参考文件 ---- 首先附上文献中的坚定差异基因的流程图。 转录组数据分析主要参考了生信技能树Jimmy老师的相关课程及推文。 RNA-seq的read count普遍认为符合泊松分布,但是之前分析过的芯片数据符合正态分布,所以筛选DEGs的方法有一定差别。 subset(diff,log2FoldChange > 2) #上调 down <- subset(diff,log2FoldChange < -2) #下调 #可利用`write.csv()`函数保存文件 8. theme(element_line(size = 0),element_rect(size = 1.5))+ #坐标轴线条大小设置 scale_y_continuous(limits = c(0,8) BioMart网页工具的原始界面如下所示: 其中左侧菜单栏分别是Dataset--选择相关物种参考基因组; Filters--选择数据gene ID的类型,并输入gene ID,也存在其他类型的
作者基于LGG患者的转录组数据构建可以准确预测患者预后的模型-APOLLO。 方法:基于6个LGG患者的1420例转录组数据集构建可以准确预测LGG患者总生存期的预后模型-APOLLO,并将APOLLO模型与现有预测模型进行比较。 数据集的获取和下载 从公共数据集下载LGG患者的转录组数据集,分别为TCGA-LGG, CGGA1, CGGA2, GSE108476, GSE61374, GSE16011,共包括1420例样本。 在所有亚组中APOLLO均表现出较好的性能,36个月的AUC在0.829-0.907之间,60个月的AUC在0.757-0.921之间。 8. 有8个研究的样本数量大于1000,其余研究的样本量较小。总的来说,作者收集的预后模型的性能均低于APOLLO模型。
kallisto是2016年发表在Nature Biotechnology上的一个比对工具,可以将bulk或者single-cell RNA-Seq数据的序列直接比对到转录组,然后进行转录本鉴定及定量。 kallisto的优势在于比对速度很快,这是因为用了一种伪比对方法,即将k-mers比对到参考转录组上。在用20套模拟数据与以往其他软件速度比较中,kallisto速度明显更快: ? 1. 创建索引 kallisto index ${dir}/trancripts.fasta -i ${dir}/trans_index 提供fasta转录组序列生成索引文件。 3. 可视化 --genomebam选项可以实现,此外还需要两个额外文件,一个是gtf文件,里面有每个转录组在染色体中的位置;另外一个是每个染色体的长度文件。
其他来源的转录组数据和TCGA的转录组数据的差别?整理输入数据的过程不同,差异分析无差别。数据下载方式不同,是否是count矩阵,行名需要是基因名,分组信息如何获取。 logFC_t)DEG2$change = ifelse(k1,"DOWN",ifelse(k2,"UP","NOT"))head(DEG2)table(DEG2$change)limma#####limma做转录组差异分析 成一簇:说明画热图的基因在两个分组间有明显的表达模式;不成一簇:说明画热图的基因在两个分组间表达模式不是特别明显;换一组基因或者增删基因,可能改变聚类的结果。
转录组数据:本身存在一定的read重复,qc报告非常容易出现警告或者红色xx,应该看具体的重复率,但重复率不应该过高比如超过70%。
生信技能树学习笔记 首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。 这个过程需要两种文件1.基因组文件:fasta 2.注释文件:gff/gtf 常用参考基因组数据库 Ensembl:www.ensembl.org -ensembl下载 ## 参考基因组准备:注意参考基因组版本信息下载,Ensembl:http://asia.ensembl.org/index.html http://ftp.ensembl.org homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log & 下载cDNA信息 cDNA下载红色部分显示链接 # 下载转录组序列 参考基因组注释gff格式 Gff文件第九列详解 Gtf文件 Ensembl基因组数据库 注:人类的数据中不显示物种信息 补充 fastq转换成fasta # 方法1zless -S SRR1039511
存放数据分析,项目分析等各种分析结果project_backup:存放备份的数据tools:存放小的代码工具等地方pipeline:存放分析流程database:存放公共数据库如不同物种人、大鼠、小鼠参考基因组等 biosoft:存放下载的各种软件包等1.1 详细命令# 进入到个人home目录,技能树提供的工作目录就是home家目录cd ~## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息 Diff_Analysis# 默认展开所有层,使用-L参数控制展开的目录层级tree ./ -L 1 # 查看整个分析目录准备结构tree ./## 示例如下:├── database # 数据库存放目录,包括参考基因组,