生信技能树学习笔记 数据质量评估 FastQC软件可以对fastq格式的原始数据进行质量统计,评估测序结果,为下一步修剪过滤提供参考。 fastqc运行 目标:使用fastqc对原始数据进行质量评估 # 激活conda环境 conda activate rna # 连接数据到自己的文件夹 # 如果上面做习题的时候已经链接过来,无需再次链接 指输出到当前文件夹 *是通配符 • nohup:no hang up(不挂起),退出终端不会影响程序的运行 • &:后台运行 # 使用MultiQc整合FastQC结果 multiqc *.zip -o ./ 下载数据查看结果
引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群!
experiments with HISAT, StringTie, and Ballgown中的数据集,这个论文中提供了转录组数据从头处理的整个流程,用到的示例数据集是人类一条染色体的数据,数据量也不大 ,非常适合我们入门转录组数据分析使用。 前面的流程我使用的是 hisat2比对 samtools sam bam 格式转换 stringtie组装转录本 gffcompare and gffread提取转录本 salmon进行转录本定量 最后获得 3D RNAseq的输入数据 quants.gz 这个是salmon软件定量之后的结果 metadata.csv 这个是每个输入文件对应的信息 包括来自哪个处理重复 image.png trans2geneid.csv 这个是转录本id和基因id的对应关系 image.png 分别上传以上准备好的3个文件 ,上传好以后点击 add selected information to analysis 然后点击 step3
引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1] 反卷积分析 接下来,我们将对以 16 µm 为单位的 Visium HD 空间转录组数据进行反卷积分析 加载单细胞参考数据 首先,我们加载与之匹配的 Chromium 单细胞 RNA 测序(scRNA-seq)数据,该数据提供了两种细胞注释分辨率:低分辨率(Level1)将细胞分为 9 类,高分辨率(Level2 为了确保参考数据与 Visium 数据在转录特征上保持一致,我们仅保留来自 patient 2 的细胞作为参考集。 memory low) cs <- split(seq_len(ncol(sce)), sce$Level1) cs <- lapply(cs, \(.) sample(., min(length(.), 4e3)
生信技能树学习笔记 数据过滤条件 测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性, 需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序 列质量控制的标准为 : (1) 去除含接头的reads; (2) 过滤去除低质量值数据,确保数据质量; (3) 去除含有N(无法确定碱基信息)的比例大于5%的reads;(可以根据实际情况) 数据过滤-trim_galore fastq.gz | while read iddoname=${id##*/}name=${name%_*} trim_galore -q 20 --length 20 --max_n 3 任务管理 1.任务投递: 前台运行:直接运行 后台运行:nohup,& 前台转后台/后台转前台:bg/fg 2.终止任务: 暂停:Ctrl+Z 终止:Ctrl+C,kill 3.任务查看: top 前台运行命令 暂停命令 Ctrl+Z 查看命令ID 前台转后台 杀程序 后台:Kill -9 %1 前台:Ctrl+C 如何检查脚本内容:echo命令 使用echo将命令打印出来查看是否变量等有错误 数据过滤数据过滤
·1.参考基因组准备·2.比对:Hisat2 Salmon1.参考基因组准备参考基因组数据库常用参考基因组数据库Ensembl:www.ensembl.org #用得最多数据库完善有基因对应的IDNCBI Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz-rw-rw-r-- 1 Mar402 Mar402 139091 Apr 23 16:51 wget-log# 下载转录组序列 format)格式,即序列比对文件格式,详细介绍见:http://samtools.github.io/hts-specs/SAMv1.pdf BAM是SAM的二进制文件(B源自binary) #PPT转录组 SRR1039510.Hisat_aln.sam##----depth统计测序深度# 得到的结果中,一共有3列以指标分隔符分隔的数据,第一列为染色体名称,第二列为位点,第三列为覆盖深度samtools :一个样本1.5G大小 *101、质控:cleandata 1.5GG*102、比对: sam 13G10 2(膨胀),bam 2G*10共约 410G简单粗暴 转录组数据多大*4~6倍
上一期我们学习了使用python读取不同的单细胞数据:python版读取不同的单细胞数据格式(单样本与多样本),今天来看看使用python读取空间转录组的数据。 0.示例数据准备 此次教程分析使用数据:10x官方的Mouse Brain (Coronal) Visium dataset数据集。 pathlib import Path import os os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"] = "python" # 读取数据 size=1.2) 需要注意的事,sc.read_visium 这个在 scanpy 1.11.0以后的版本中 已经停止使用: 下一期分享使用 SpatialData 读取空转 10X visum HD的数据
GENIE3算法 GENIE3 (GEne Network Inference with Ensemble of trees) 是一种基因网络推断算法,用于从基因表达数据中推断出调控网络。 适用场景: 基因调控网络重建:GENIE3常用于基因表达数据中基因调控关系的推断,特别是在单细胞RNA测序数据和bulk RNA-seq数据中。 优点: 由于使用了随机森林等集成学习方法,GENIE3对噪声数据具有很强的鲁棒性。 可以适用于不同规模的基因表达数据集,从小规模的实验数据到大规模的高通量测序数据。 分析流程 1、导入矩阵数据和转录因子 rm(list=ls()) library(GENIE3) load("~/data.Rdata") exp1_input <- exp1[intersect(degs , 因为目前已知的转录因子数量是有限的,而且未必会出现在分析的矩阵中。
引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群(你懂的)! 平面文件结构 目前,不同商业供应商提供的空间转录组学平台的数据,其文件结构和格式各不相同。 不过,这些数据在本质上是相似的,比如:基于测序的数据都包含阵列点的空间位置和计数矩阵;基于成像的数据则包括转录本位置(通过点呼叫得到)、多边形边界(通过分割得到)以及计数矩阵(通过将转录本分配到细胞得到 Visium(10x Genomics) 在 Visium 数据上运行 Space Ranger(10x Genomics 提供的数据处理软件)会生成一组标准化的输出文件。 SpatialExperimentIO 提供了多种基于成像的空间转录组学平台的读取器,涵盖了 CosMx(Bruker)、Xenium(10x Genomics)、MERSCOPE(Vizgen)和 seqFISH
前前后后接触了一些基因组和转录组拼接的工作,而且后期还会持续进行。期间遇到了各种各样莫名其妙的坑,也尝试了一些不同的方法和软件,简单做一个阶段性小结。 trinityrnaseq/trinityrnaseq/wiki 相关文献: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3571712/ Trinity是目前最常用的转录组拼接软件 against proteins or transcripts from a related species and inspecting the alignments 这里我们主要使用前两个功能,如果是有参转录组的拼接 但如果是为了查看新的转录本,进行第三项评估也没有太大意义。针对转录组拼接而言,第一步中各种长度的统计结果意义也不大,只有回帖率这个指标是最重要的。 至此,已经完成了常规的转录组拼接工作,可以进行更多的后续分析。比如基因结构注释等等。
本笔记会被收录于《生信技能树》公众号的《单细胞2024》专辑,而且我们从2024开始的教程都是基于Seurat的V5版本啦,之前已经演示了如何读取不同格式的单细胞转录组数据文件,如下所示: 初试Seurat 那么这样的单细胞转录组项目也是有众所周知的常规数据分析策略啦,如果你不幸的继承了这样的“祖传”的单细胞转录组数据,也想简简单单发个文章而已,那么单细胞转录组的3种常规数据分析思路可能会对你有帮助啦。 我这里简单的分享一下自己看到的单细胞转录组的3种常规数据分析思路给大家。 思路3:临床或者公共数据联合 其实这个思路的数据分析,都没必要自己测序了,有点浪费。 因为目前海量的数据挖掘文章都是基于单细胞转录组公共数据去结合临床信息的: 联合同样的实验设计的bulk数据多分组差异分析,代表文献: 《Single-cell transcriptome profiling
图片 转录组概述 图片 图片 图片 图片 图片 图片 图片 上机测序完成之后得到的测序数据为FASTQ文件 图片 Linux 复习 图片 准备工作-目录管理 图片 # 进入到个人目录 cd ~ ## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息 mkdir -p database/GRCh38.105 ## 2.建立项目分析目录 mkdir project cd project mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程 cd Human-16-Asthma-Trans # 建立数据存放目录 ── Expression │ ├── featureCounts │ └── Salmon └── Mapping ├── Hisat2 └── Subjunc Fastq 数据介绍 /*gz ./ 图片 图片 fastq数据第四行 图片 碱基识别出错的概率映射值Q值与FASTQ数据中储存:F怎么转换 图片 (例如Q=70 用70-33=37,对应图1 Q=37已经满足了 ) 图片
简介 Bioconductor 提供了多种数据类,用于存储和处理空间(转录)组学数据集。这些统一的数据结构使得可以方便地将不同研究团队开发的方法和软件包整合起来,构建出包含最新先进方法的分析流程。 接下来,介绍本系列中用到的 Bioconductor 数据类。 文件格式 空间(转录)组学的检测手段以及由此获取的数据类型丰富多样。而且,不同的供应商在分发数据时采用的文件格式也不尽相同。 数据类 在基于测序的空间转录组学(ST)数据里,数据呈现为转录本 - 位点计数矩阵的形式,每个位点还附带空间坐标信息。 经过细胞边界的分割和转录本到细胞的映射后,这些数据可以被转换成类似单细胞组学技术数据的转录本 - 细胞计数矩阵。 MoleculeExperiment MoleculeExperiment(ME)是专门针对基于成像的空间转录组学数据设计的。
作者,Evil Genius分享一个数据库,CROST, CROST应用标准化处理流程整合了182个高质量的空间转录组数据集,涵盖8个不同物种、35种组织类型和56种疾病的1033个子数据集。 CROST通过集成空间转录组、经典转录组、表观基因组和基因组的数据全面阐明了肿瘤相关SVG,是用户(尤其是临床医生)快速评估特定癌症类型中基因表达水平、甲基化水平、拷贝数变异以及预后的宝贵工具。 CROST还开发了一个专为空间转录组分析而设计的一站式分析平台,旨在帮助用户即使不具备任何编程技能也可进行空间转录组分析。 3、Explore module该模块为可视化、细胞通讯、细胞类型共定位和细胞类型关联提供了一个交互式环境。4、Online analysis module包括ssGSEA、SpatialAP。 SPASCER数据库,SPASCER数据库是一个新的空间转录组学数据库,包含43个研究的1082个数据集,旨在帮助理解组织异质性,组织微环境以及跨组织结构的细胞间相互作用,网址在https://ccsm.uth.edu
STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。 官方推荐基因组的fasta采用primary_assembly版本, 不应该包含alt_scaffold和patches。 前3种类型的文件都比较容易理解,剪切位点文件实际上是根据mapping情况,估算出来的intron区间的信息,默认的文件名称为SJ.out.tab。 单端数据比对的基本用法如下 STAR \ --runThreadN 20 \ --genomeDir hg19_STAR_db \ --readFilesIn reads.fq \ --sjdbGTFfile ,添加所有样本的SJ.out.tab文件,然后利用新的基因组索引重新比对。
前面我们介绍了从Xenium下机数据开始,到数据读取、质控、降维聚类、空间聚类(Banksy)、细胞类型注释(特征基因注释、RCTD反卷积注释),完成了基础的分析,(Xenium数据分析 | 下机数据读取 这里我们用4个小鼠肺腺癌样本Xenium数据进行演示,记录下我们对空间数据分析简单的见解,希望可以和大家相互学习。 空间转录组(Xenium, VisiumHD, Cosmx)数据分析中,我们在细胞类型注释完成后,接下来通常会再识别出不同的CN,每个CN中会包含特有的几种细胞类型,CN中的细胞类型由于其细胞类型组成的相似性 ,代表了共有的细胞结构,在空间转录组数据分析的过程中,比较不同条件下样本之间的空间结构,就会找到疾病所带来的组织结构变化,可以在更加全面的角度上认识疾病,并为治疗提供积极的意见。 3. 各CN中细胞类型占比统计展示4.
邻近富集分析(Proximity Enrichment Analysis)是空间转录组数据分析中的一种重要方法,用于评估细胞类型对之间的空间关联性。 该分析通过置换检验(permutation-based tests)来比较实际观察到的细胞类型对出现的频率与随机置换数据中的频率,从而确定细胞类型之间的空间关系是否具有统计学意义。 例如,通过邻近标记技术,研究人员可以在活细胞或组织内标记特定区域的蛋白质组,从而获得更全面、更真实的细胞器蛋白质图谱。 在肿瘤研究中,利用邻近标记技术可以精准地解析肿瘤细胞及其周围基质细胞、免疫细胞等的蛋白质组邻近富集分析结果热图展示:富集得分反映了两种细胞类型之间空间邻近关系的显著性。
前言 在对单细胞转录组数据标准化之后,需要对数据进行降维。 那么降维的目的是什么呢? 加载包 library(Seurat) library(dplyr) library(tidyverse) library(patchwork) 3. 设置工作路径 setwd("D:/sc-seq/BC21") 根据自己数据的存放位置自定义路径。 4. 读取数据 该数据为标准化后的数据。 RunPCA函数格式:RunPCA(object,features = NULL, npcs = 50,……) object:标准化后的Seurat对象; features:用来进行PCA的基因:为单细胞转录组 下图中PC1解释最大的数据差异,PC2解释了第二大部分差异,PC3解释了第三大部分差异,以此类推…… 那么我们应该选择多少个PCs数才能代表数据的真实结构,进行后续分析呢?请接着往下看。
近年来空间转录组技术出现在人们的视野中,由于这项技术不仅能够获得转录组的表达信息,同时还能对基因进行定位,因此受到研究者们的追捧。空间转录组技术到底是什么?它有什么用?应该怎么用? 空间转录组技术可以帮助我们更准确的了解疾病的病理信息;空间转录组可以消除组织分离带来的偏差。 空间转录组技术无需进行组织解离,避免了在解离过程中造成的细胞损伤;空间转录组有助于异质组织中细胞类型的识别。 ? 空间转录组可以保留组织和细胞的微环境信息 三、空间转录组是怎么实现的? 实验流程 三、空间转录组如何应用? 整合空间转录组和单细胞转录组揭示胰腺导管腺癌的组织结构 ? 整合两个数据集后发现导管细胞,巨噬细胞,树突状细胞和癌细胞的亚群的富集具有空间特性,表达压力反应基因模块的炎症成纤维细胞和癌细胞在同一区域分布。
传统的转录组可以得到基因的差异表达信息,单细胞转录组提供了更高分辨率的基因表达信息,可以分辨出不同细胞的类型,而空间转录组在此基础之上,还可以得到不同类型细胞的空间分布信息,分辨率进一步提高。 样品切片信息 切片+单细胞得到的空间转录组 二、为什么要做空间转录组? 空间转录组将组织切片与转录组测序结合,实现空间信息和转录本信息的获取。 四、空间转录组建库 由于空间转录组相比于单细胞转录组多了空间信息,因此 10X Visium 的实验可以分为两个板块——组织学板块和组学板块。 对全转录组或靶向基因表达文库进行测序,并通过易用的数据分析和可视化软件 Space Ranger 和 Loupe Browser 来开展数据分析和可视化。 autoplay=true 五、空间转录组数据分析 空间转录组分析流程 案例: https://support.10xgenomics.com/spatial-gene-expression