前言 记得我们在ST Pipeline||空间转录组分析流程(https://www.jianshu.com/p/7b5d145a515a)讲过,空间转录组就是把之前的单细胞的cell-gene矩阵转化为 今天让我们来看看空间转录组的一般流程吧。 1. Histology 将准备好的新鲜冷冻组织切片放置于空间转录组芯片上。每个细胞中的RNA分子都包含着基因表达的信息。组织切片成像,以检索组织学信息。 这样就可以看到一个细胞或一组细胞在组织中的位置。 2. The Array 空间转录组芯片上含有上千个捕获的spot,这些捕获探针的 Poly-T 尾可以结合RNA分子的 Poly-A 尾。 这使得在后续步骤中覆盖细胞组织图像和基因表达数据成为可能。 4. Permeabilisation 用我们的渗透试剂对组织进行渗透,这意味着在细胞膜上形成小孔。 需要通过以下步骤将捕获的RNA分子中存储的信息转换为数据。 5. cDNA Synthesis cDNA合成是为了创造稳定的双链DNA分子。
前言 记得我们在ST Pipeline||空间转录组分析流程(https://www.jianshu.com/p/7b5d145a515a)讲过,空间转录组就是把之前的单细胞的cell-gene矩阵转化为 今天让我们来看看空间转录组的一般流程吧。 1. Histology ? 将准备好的新鲜冷冻组织切片放置于空间转录组芯片上。每个细胞中的RNA分子都包含着基因表达的信息。组织切片成像,以检索组织学信息。 这样就可以看到一个细胞或一组细胞在组织中的位置。 2. The Array ? 空间转录组芯片上含有上千个捕获的spot,这些捕获探针的 Poly-T 尾可以结合RNA分子的 Poly-A 尾。 需要通过以下步骤将捕获的RNA分子中存储的信息转换为数据。 5. cDNA Synthesis ? cDNA合成是为了创造稳定的双链DNA分子。 这些数据在云中存储和分析。 8. Data Visualisation ? 在最后一步中,所有之前收集的信息都被汇集起来,可以在线访问。
文章大家可以好好看看,我在这里重点讲述分析方法,首先,空间转录组污染的问题,这个污染来源于周围spot转录本的弥散,去污的方法是SpotClean,这个方法我之前分享过,文章在10X空间转录组去污染分析之 第四点,识别肿瘤转录的program,这也是文章中常见的分析内容,一般我们采用WGCNA或者NMF寻找,但是这是偷懒的方法,作者就做的非常精细。 As a result, 48 spatially informed marker gene sets were identified across 10 tumor samples.To horizontally correlation coefficients were visualized by ComplexHeatmap64 R package (v2.0.0).图片当然,最终的模块结果跟形态学是匹配的,这也是空间转录组需要告诉我们的信息 图片第五点,解卷积分析,这里也提醒我们,如果没有匹配的单细胞数据来运用的话,可以借助数据库的单细胞数据。分析niche的时候判断细胞类型的分布差异。这个地方就为生态位通讯提供了依据。
目前很多研究人员仍然借助单细胞的分析软件来分析空间转录组,但事实证明这些工具不足以分析复杂的 ST 数据集,这一篇我们就来对空间转录组的分析进行梳理。 第一部分,Spatial Reconstruction 这部分是空间转录组的基础分析,也是第一步和获取基础信息的一步,空间转录组数据矩阵的降维、聚类、差异、富集的基础分析,通常还是要借助Seurat )、10X空间转录组和10X单细胞数据联合分析方法汇总 cell2location Cell2location maps fine-grained cell types in spatial transcriptomics deconvolution of pixel-resolution spatially resolved transcriptomics data(biorxiv) 10X空间转录组数据分析之空间注释 空间转录组和10X单细胞数据联合分析方法汇总 scanpy 没有专门针对单细胞空间联合的文章 Integrating spatial data with scRNA-seq using scanorama
生信技能树学习笔记 数据过滤条件 测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性, 需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序 列质量控制的标准为 : (1) 去除含接头的reads; (2) 过滤去除低质量值数据,确保数据质量; (3) 去除含有N(无法确定碱基信息)的比例大于5%的reads;(可以根据实际情况) 数据过滤-trim_galore 前台运行命令 暂停命令 Ctrl+Z 查看命令ID 前台转后台 杀程序 后台:Kill -9 %1 前台:Ctrl+C 如何检查脚本内容:echo命令 使用echo将命令打印出来查看是否变量等有错误 数据过滤数据过滤 -trim_galore运行结果 第二种数据过滤软件——fastp https://github.com/OpenGene/fastp 特点:快 fastp常用参数 注意大小写 小技巧:\的妙用 表示手动换行
无论疫情如何,科研一直在路上,并且在不断的推陈出新,而我们今天要分享的就是10X空间转录组的免疫组库分析。 ,一方面是由于空间转录组测到的是3’区域,而VDJ的变体结构富集在5’;另一方面VDJ在一个免疫细胞中通常成对出现,而空间转录组的精度目前均没有细胞级,10X空间转录组的精度为55um,而Stereo-seq 尽管如此,还是有文章和方法可以解决这个问题,我们来看看空间转录组免疫组库的运用和方法。 应用二、癌症空间转录组TCR的检测运用 空间转录组学可以测定空间区域的基因表达,方面研究者们识别细胞的空间分与空间临近处的相互作用。 Visium 空间转录组学平台可以捕获空间位置的mRNA。
·1.参考基因组准备·2.比对:Hisat2 Salmon1.参考基因组准备参考基因组数据库常用参考基因组数据库Ensembl:www.ensembl.org #用得最多数据库完善有基因对应的IDNCBI Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz-rw-rw-r-- 1 Mar402 Mar402 139091 Apr 23 16:51 wget-log# 下载转录组序列 生成统计图(图E)# 提交后台运行nohup sh Hisat.sh >Hisat.log & #结果图D图片图片图片比对结果文件bam/sam文件格式查看bam文件(rna) Mar402 21:10 format)格式,即序列比对文件格式,详细介绍见:http://samtools.github.io/hts-specs/SAMv1.pdf BAM是SAM的二进制文件(B源自binary) #PPT转录组 个样本 转录组估算使用空间:一个样本1.5G大小 *101、质控:cleandata 1.5GG*102、比对: sam 13G10 2(膨胀),bam 2G*10共约 410G简单粗暴 转录组数据多大
上一期我们学习了使用python读取不同的单细胞数据:python版读取不同的单细胞数据格式(单样本与多样本),今天来看看使用python读取空间转录组的数据。 0.示例数据准备 此次教程分析使用数据:10x官方的Mouse Brain (Coronal) Visium dataset数据集。 下载链接:https://www.10xgenomics.com/datasets/mouse-brain-section-coronal-1-standard-1-0-0 下载: # Output Files pathlib import Path import os os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"] = "python" # 读取数据 visum HD的数据~
生信技能树学习笔记 数据质量评估 FastQC软件可以对fastq格式的原始数据进行质量统计,评估测序结果,为下一步修剪过滤提供参考。 fastqc运行 目标:使用fastqc对原始数据进行质量评估 # 激活conda环境 conda activate rna # 连接数据到自己的文件夹 # 如果上面做习题的时候已经链接过来,无需再次链接 指输出到当前文件夹 *是通配符 • nohup:no hang up(不挂起),退出终端不会影响程序的运行 • &:后台运行 # 使用MultiQc整合FastQC结果 multiqc *.zip -o ./ 下载数据查看结果
,得到目前引用数最多,应用最广的 10 个单细胞数据分析工具 / 流程。 STAR STAR(Spliced Transcripts Alignment to a Reference)是一款用于转录组数据比对的工具,推出于2012年。 Kallisto 通过采用估计碎片相对丰度的方法,不需对整个转录组进行比对,加速了分析过程,使其成为 RNA-seq 数据处理的理想选择,特别适用于高通量测序项目。 Scanpy Scanpy 是一款用于单细胞转录组数据分析的 Python 工具,推出于 2017 年,主要应用于细胞聚类、差异表达和细胞发育轨迹分析。 而 Seurat,不愧为单细胞转录组数据处理事实上的标准,其优异的表现得到了广泛认可。不过其最大的缺点是运算速度,如果项目的细胞数过多,运算可能会很慢。不过这主要是R语言本身的锅。
转录组数据来推断CNV信息,如下: ? 那么10X数据跟其它单细胞转录组差异在哪呢? 在我们推荐的各种单细胞转录组技术比较的文章,Ziegenhain et al., 2017, Molecular Cell http://dx.doi.org/10.1016/j.molcel.2017.01.023 很容易从10X的数据分析报告看出来,10X单细胞转录组数据处理流程在我们单细胞天地有详细介绍: 单细胞实战(一)数据下载 单细胞实战(二) cell ranger使用前注意事项 单细胞实战(三) Cell 显示平均每个细胞的测序数据量是45K条reads。 当然,并不是10x一个技术是这样单个细胞的reads数量太少,检测到的基因数量太少。
5000个含有数亿个寡核苷酸的数据点,用于捕获mRNA 灵敏度高 简单的仅需1天的组织和文库制备工作流程 根据不同组织类型,每个数据点平均捕获1至10个细胞 在新鲜冷冻组织样本上进行过验证 包含所有载玻片和试剂 数据分析 ? ? ? ? ? ? ? ? ? ? ? ? ? Envision New Dimensions: Getting Started with the Visium Spatial Gene Expression Solution(https://pages.10xgenomics.com /wbr-2019-10-29-event-ra_g-apac-visium-launch-getting-started-watch-on-demand.html? userresearcharea=ra_g&userregion=apac&userrecipient=customer&mktouserid=1101634&cid=&usercampaignid=) https://www.10xgenomics.com
生信技能树核心成员,单细胞天地特约撰稿人,简书创作者,单细胞数据科学家。 识别复杂生物系统中空间基因表达差异的能力对我们理解发育生物学和疾病的进展至关重要。 5000个含有数亿个寡核苷酸的数据点,用于捕获mRNA 灵敏度高 简单的仅需1天的组织和文库制备工作流程 根据不同组织类型,每个数据点平均捕获1至10个细胞 在新鲜冷冻组织样本上进行过验证 包含所有载玻片和试剂 无需仪器 overview 组织样本准备 成像 测序 数据分析 ---- 参考 Envision New Dimensions: Getting Started with the Visium Spatial Gene Expression Solution(https://pages.10xgenomics.com /wbr-2019-10-29-event-ra_g-apac-visium-launch-getting-started-watch-on-demand.html?
,得到目前引用数最多,应用最广的 10 个单细胞数据分析工具 / 流程。 STAR STAR(Spliced Transcripts Alignment to a Reference)是一款用于转录组数据比对的工具,推出于2012年。 Kallisto 通过采用估计碎片相对丰度的方法,不需对整个转录组进行比对,加速了分析过程,使其成为 RNA-seq 数据处理的理想选择,特别适用于高通量测序项目。 Scanpy Scanpy 是一款用于单细胞转录组数据分析的 Python 工具,推出于 2017 年,主要应用于细胞聚类、差异表达和细胞发育轨迹分析。 而 Seurat,不愧为单细胞转录组数据处理事实上的标准,其优异的表现得到了广泛认可。不过其最大的缺点是运算速度,如果项目的细胞数过多,运算可能会很慢。不过这主要是R语言本身的锅。
前前后后接触了一些基因组和转录组拼接的工作,而且后期还会持续进行。期间遇到了各种各样莫名其妙的坑,也尝试了一些不同的方法和软件,简单做一个阶段性小结。 trinityrnaseq/trinityrnaseq/wiki 相关文献: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3571712/ Trinity是目前最常用的转录组拼接软件 against proteins or transcripts from a related species and inspecting the alignments 这里我们主要使用前两个功能,如果是有参转录组的拼接 但如果是为了查看新的转录本,进行第三项评估也没有太大意义。针对转录组拼接而言,第一步中各种长度的统计结果意义也不大,只有回帖率这个指标是最重要的。 至此,已经完成了常规的转录组拼接工作,可以进行更多的后续分析。比如基因结构注释等等。
引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群(你懂的)! 平面文件结构 目前,不同商业供应商提供的空间转录组学平台的数据,其文件结构和格式各不相同。 不过,这些数据在本质上是相似的,比如:基于测序的数据都包含阵列点的空间位置和计数矩阵;基于成像的数据则包括转录本位置(通过点呼叫得到)、多边形边界(通过分割得到)以及计数矩阵(通过将转录本分配到细胞得到 Visium(10x Genomics) 在 Visium 数据上运行 Space Ranger(10x Genomics 提供的数据处理软件)会生成一组标准化的输出文件。 SpatialExperimentIO 提供了多种基于成像的空间转录组学平台的读取器,涵盖了 CosMx(Bruker)、Xenium(10x Genomics)、MERSCOPE(Vizgen)和 seqFISH
图片 转录组概述 图片 图片 图片 图片 图片 图片 图片 上机测序完成之后得到的测序数据为FASTQ文件 图片 Linux 复习 图片 准备工作-目录管理 图片 # 进入到个人目录 cd ~ ## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息 mkdir -p database/GRCh38.105 ## 2.建立项目分析目录 mkdir project /*gz ./ 图片 图片 fastq数据第四行 图片 碱基识别出错的概率映射值Q值与FASTQ数据中储存:F怎么转换 图片 (例如Q=70 用70-33=37,对应图1 Q=37已经满足了 ) 图片 Asthma-Trans/data/rawdata $ zless SRR1039510_1.fastq.gz |grep -c '^@SRR' 25000 #题2 方法1: (rna) Mar402 10 16-Asthma-Trans/data/rawdata $ zless SRR1039510_1.fastq.gz |grep '^@SRR'| less -S 方法2: (rna) Mar402 10
接下来,介绍本系列中用到的 Bioconductor 数据类。 文件格式 空间(转录)组学的检测手段以及由此获取的数据类型丰富多样。而且,不同的供应商在分发数据时采用的文件格式也不尽相同。 以 10x Genomics 的数据为例,可以借助 DropletUtils 中的 read10xCounts()函数将其计数数据导入 R;其他供应商的数据则可以通过标准的 R 读取工具来读取。 数据类 在基于测序的空间转录组学(ST)数据里,数据呈现为转录本 - 位点计数矩阵的形式,每个位点还附带空间坐标信息。 经过细胞边界的分割和转录本到细胞的映射后,这些数据可以被转换成类似单细胞组学技术数据的转录本 - 细胞计数矩阵。 MoleculeExperiment MoleculeExperiment(ME)是专门针对基于成像的空间转录组学数据设计的。
作者,Evil Genius分享一个数据库,CROST, CROST应用标准化处理流程整合了182个高质量的空间转录组数据集,涵盖8个不同物种、35种组织类型和56种疾病的1033个子数据集。 CROST通过集成空间转录组、经典转录组、表观基因组和基因组的数据全面阐明了肿瘤相关SVG,是用户(尤其是临床医生)快速评估特定癌症类型中基因表达水平、甲基化水平、拷贝数变异以及预后的宝贵工具。 CROST还开发了一个专为空间转录组分析而设计的一站式分析平台,旨在帮助用户即使不具备任何编程技能也可进行空间转录组分析。 目前分享的数据库包括SpatialData,文章在整合多模态空间组学数据开源框架--SpatialData,网址在https://spatialdata.scverse.org 还有SpatialTME SPASCER数据库,SPASCER数据库是一个新的空间转录组学数据库,包含43个研究的1082个数据集,旨在帮助理解组织异质性,组织微环境以及跨组织结构的细胞间相互作用,网址在https://ccsm.uth.edu
STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。 官方推荐基因组的fasta采用primary_assembly版本, 不应该包含alt_scaffold和patches。 单端数据比对的基本用法如下 STAR \ --runThreadN 20 \ --genomeDir hg19_STAR_db \ --readFilesIn reads.fq \ --sjdbGTFfile hg19.gtf \ --sjdbOverhang 149 \ --outFileNamePrefix sampleA \ --outSAMtype BAM SortedByCoordinate 双端数据比对的基本用法如下 ,添加所有样本的SJ.out.tab文件,然后利用新的基因组索引重新比对。