今天我们来介绍一种更为简单的方法:一键处理 10X 下机数据。 STARSolo 分析 10X 基因组学的 v3 化学版本数据。 可以看到,该流程主要调用 RNA STARSolo 进行数据处理,最后将 log文件和 gene counts 文件交给 MultiQC 进行汇总。 运行流程 运行流程非常简单,这也是一键分析的含义。 只需要设置: • 参考基因组(可以是服务器内置的,也可以是自己上传的) • GTF文件(可以自行上传,或使用平台提供的) • Barcode文件(来自于10X下机数据) • cDNA文件(来自于10X下机数据 如果下机数据有多条 Lane,可以直接使用 RNA STARsolo 工具进行分析: https://usegalaxy.cn > 工具 > RNA STARSolo
#示例数据 sce.pbmc #获取方式见原教程 #class: SingleCellExperiment #dim: 33694 3985 table(sce.pbmc$label) # 1 16 #names(16): 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 以cluster 7的分析结果为例 chosen <- "7" interesting 换一个角度思考,findMarkers()函数提供的分析方法可以适用于涉及多组的Bulk RNA-seq差异分析方法。 往期回顾 NC单细胞文章复现(七):Gene expression signatures(2) 多组学分析肺结核队列的记忆T细胞状态 单细胞混样测序至少可以区分性别 拟时序分析的10个步骤 --- - ---- ---- 如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程 生信爆款入门-2021第4期 数据挖掘(GEO,TCGA,单细胞)2021第4期 明码标价之共享
伴随着单细胞技术的流行,我们也做了很多福利项目,帮助大家对海量的公共数据集继续普通的标准分析,这样大家可以拿我们的分析结果进行后续个性化深入分析和解读: 这个过程中,我安排工程师们整理了初次接触单细胞的小伙伴拿到了 我们的数据分析标准结果后通常的疑惑点,大家可以看看是否有同感。 单细胞数据质量控制的核心诉求是什么? 答:去掉各种各样的低质量的细胞 。 单细胞数据质量控制的主要做了什么? 因为我们质控的目的是去掉不是细胞的东西,不能排除某种状态的细胞,在下游分析中,会成为我们苦苦寻找的那一个。 在单细胞数据科学中数据质控的原则是:质控时贪婪,验证时谨慎,最大限保留数据信息。 但是绝大部分的marker gene都是选取的在特定的单细胞亚群高表达基因,而且本身很多基因就是因为在某个数据集的某个单细胞亚群特异性高表达,才成为了下次分析的这个亚群的marker gene 。
scanpy和seurat是最常用的分析的单细胞的工具,seurat基于R,而scanpy基于python。 linux下用pip安装scanpy pip install scanpy 下载测试数据 mkdir data wget http://cf.10xgenomics.com/samples/cell-exp ('data/filtered_gene_bc_matrices/hg19', var_names='gene_symbols', cache=True) #读取单细胞测序文件 ? ) PCA主成分分析 sc.tl.pca(adata, svd_solver='arpack') sc.pl.pca(adata, color='CST3') ? 使用标准化的数据进行可视化 sc.pl.umap(adata, color=['CST3', 'NKG7', 'PPBP'], use_raw=False) ?
使用GSE218208数据为例library(celldex)#使用celldex包里的注释数据#下载到本地library(SingleR)ls("package:celldex")f = ".. file.exists(f)){ ref <- celldex::BlueprintEncodeData() save(ref,file = f)}ref <- get(load(f))#把里面的数据提取出来生成新的数据
正好我们前面一篇文章介绍了这样一个开源数据库:https://www.scrna-tools.org/,里面收集了几乎所有的单细胞数据分析工具,我们在这个网站上通过工具的引用数排序,截取前 10 行结果 ,得到目前引用数最多,应用最广的 10 个单细胞数据分析工具 / 流程。 CellRanger CellRanger 是由 10x Genomics 开发的单细胞数据分析工具,于 2015 年首次发布。 主要应用于单细胞 RNA-seq 数据处理,涵盖细胞特异性表达、群聚分析和基因表达定量。其优点包括高度自动化、用户友好的界面以及强大的分析工具。 SCENIC 为研究人员提供了深入了解单细胞基因调控网络的工具,有助于揭示细胞类型和状态之间的分子调控机制。 10.
正好我们前面一篇文章介绍了这样一个开源数据库:https://www.scrna-tools.org/,里面收集了几乎所有的单细胞数据分析工具,我们在这个网站上通过工具的引用数排序,截取前 10 行结果 ,得到目前引用数最多,应用最广的 10 个单细胞数据分析工具 / 流程。 CellRanger CellRanger 是由 10x Genomics 开发的单细胞数据分析工具,于 2015 年首次发布。 主要应用于单细胞 RNA-seq 数据处理,涵盖细胞特异性表达、群聚分析和基因表达定量。其优点包括高度自动化、用户友好的界面以及强大的分析工具。 SCENIC 为研究人员提供了深入了解单细胞基因调控网络的工具,有助于揭示细胞类型和状态之间的分子调控机制。 10.
在分析单细胞数据时,同一类型的细胞往往来自于不同的细胞周期阶段,这可能对下游聚类分析,细胞类型注释产生混淆;由于细胞周期也是通过cell cycle related protein 调控,即每个阶段有显著的 marker基因;通过分析细胞周期有关基因的表达情况,可以对细胞所处周期阶段进行注释;在单细胞周期分析时,通常只考虑三个阶段:G1、S、G2M。 base_files/GeneSet/mouse_cell_cycle_genes/mouse_cell_cycle_genes/mouse_cell_cycle_genes.rds") 我们继续使用前面的数据进行分析 下面文章中的:sce3 单细胞专题 | 9.如何人工注释单细胞类群? 具体参考文章【单细胞数据分析中scran包进行细胞周期分析时细胞周期marker基因的转换】 ###基因转换 library(clusterProfiler) library(org.Hs.eg.db)
导读 本文将学习跨条件执行单细胞整合,以识别彼此相似的细胞。 1. 目标 跨条件对齐相同的细胞类型。 2. 想要识别存在于数据集中所有的细胞类型,因此希望观察每个簇中两个样本/条件/模态中的细胞表示。这将使下游的结果更具可解释性(即 DE 分析、配体-受体分析)。 如果细胞按样本、条件、批次、数据集、模态进行聚类,则整合步骤可以极大地改善聚类和下游分析。 具体来说,这种整合方法期望组中至少一个单细胞子集之间存在“对应”或共享的生物状态。整合分析的步骤如下图所示: 应用的不同步骤如下: 典型相关分析 (CCA): CCA 识别条件/组之间的共享变异源。 执行相互分析,如果两个细胞在两个方向上都是best buddies,那么这些细胞将被标记为anchors,以将两个数据集“锚定”在一起。
source("https://raw.githubusercontent.com/farrellja/URD/master/URD-Install.R") library(URD) 因为没有找到提供的测试数据集 ,就用之前用seurat分析过的不同时期的心脏单细胞数据跑一边吧。 1.导入数据 library(URD) # Create an URD object, which will filter the data, then normalize and log-transform
在使用seurat进行单细胞分析的时候,大多数的教程都是用计数矩阵作为数据输入,但是我发现一些新手朋友对于不同数据库来源(GEO、BD)的数据或者想要去复现、借鉴一个感兴趣的文章中的下机数据时,不知道怎么把数据处理成 Seurat可以读入的计数矩阵,所以本篇文章就详细介绍单细胞数据的上游分析。 10X平台数据 上游分析主要涉及的步骤就两个:比对和质控。我们可以先从10X平台官网了解一些软件和方法。 以下是读取GEO数据的几种常见方式,特别是如何将其导入Seurat进行分析。 1. 总的来说,大家获取数据的方式有两种,根据自己的研究目标、预算以及时间来决定是使用自己的测序数据还是依赖于公共数据库中的数据,无论哪种方式,弄懂上游分析对于下游分析有益无害哦~
单细胞RNA测序(scRNA-seq)和DNA测序(scDNA-seq)都可以应用于细胞水平基因组分析。对于突变分析,scDNA-seq似乎更常见。 scRNA-seq通常具有更大的数据量和更好的数据质量。但目前DNA测序中检测突变的方法多种多样,尚不清楚这些方法是否可以用于scRNA-seq数据。 对Bulk RNAseq或scDNA-seq数据开发的突变检测方法不适用于scRNA-seq数据,因为它们会产生过多的假阳性。 他们将SCmut应用于几个scRNA-seq数据集。在scRNA-seq乳腺癌数据集中,SCmut可以识别许多高度可信的细胞水平突变,这些突变在许多细胞中都反复出现,并且在不同样品中保持一致。 在(i)中,发现的细胞水平突变在肿瘤细胞和非肿瘤细胞之间被很好地分开,在(ii)中,突变被同时在两个独立的数据集中发现。
背景 当前的单细胞测序主要采用 illumina 测序平台进行测序,一般为双末端测序,测序完成之后首先需要对 illumina 测序数据进行质控过滤,过滤条件与其他分析类似。 单细胞分析流程 单细胞的数据处理主要包括 illumina 数据碱基识别,数据质控过滤,生成 feature-count 矩阵等过程。这些过程都可以使用 cellranger 完成。 三、生成矩阵 count 这里使用 10x Genomics 官方分析软件 Cell Ranger 对原始数据进行数据质量统计,并比对参考基因组。 4.2 细胞计数质控(cell QC) 细胞计数质控是单细胞数据分析中非常重要的内容。因为 10xgenomics 是采用液滴型的捕获细胞方法。 在单细胞分析中需要将这些多细胞以及空细胞都过滤掉,只对单细胞结果进行分析。那么如何判断是否为单细胞呢?
在对单细胞数据进行差异表达分析的时候,可以从全细胞和元细胞两个角度去考虑。 基于全细胞目前常见的单细胞转录组计算差异表达基因方法有DESeq2、edgeR、limma、MAST、SCDE (Single Cell Differential Expression)、Seurat 所有步骤旨在优化数据质量、减少噪声并提取重要的基因特征,为后续的分析(如聚类和差异表达分析)做准备。最终,处理后的数据存储在 adata 对象中。 使用SEACells聚合细胞,然后在元细胞水平上,执行差异表达分析。 总结: 本节我们选择元细胞作为分析策略避免生物学噪音和dropout的干扰。
基础知识单细胞数据的应用方向图片单细胞数据的存放位置图片单细胞数据的分析流程图片高变基因:方差最大的2000个基因。marker基因:每个细胞簇中表达显著的基因。 )1.数据和R包准备代码:https://satijalab.org/seurat/v3.0/pbmc3k_tutorial.html数据:https://s3-us-west-2.amazonaws.com (Seurat)library(patchwork)2.读取数据10X的输入数据是固定的三个文件,在工作目录下新建01_data/,把三个文件放进去。 ]@scale.data[30:34,1:3]5.1 线性降维PCApbmc <- RunPCA(pbmc, features = VariableFeatures(pbmc))##只选择了高变化基因分析 dims = 1:2, reduction = "pca")#每个主成分对应基因的热图DimHeatmap(pbmc, dims = 1:15, cells = 500)# 应该选多少个主成分进行后续分析
单细胞RNA测序分析是转录组学研究前沿的一个快速发展领域,用于高通量的发育研究和稀有转录本研究,以检查细胞群体内的细胞异质性。 细胞分辨率和全基因组范围的分析使我们能够得出以前使用批量RNA-seq无法得出的新结论。这种分析需要大量的统计知识、湿实验室协议以及一些机器学习知识,以应对数据的变异性和稀疏性。 10x 基因组学时代 10x 基因组学不仅提供了一种成本效益高的高通量解决方案来理解单个细胞水平上的样本异质性,而且定义了该领域的标准,许多下游分析包现在都在争先恐后地适应这些标准。 尽管大约使用了300万个10x凝胶条码,但由于大部分液滴(超过90%)是空的以确保其余液滴只包含一个细胞,因此在样本中实际定性分析的数量约为10,000。 分析策略 本教程的第一部分本质上是一个一键式的”即点即忘”解决方案,用于去多重化和量化单细胞RNA测序数据,在这一至关重要的阶段所需的复杂性大多被简化为一个步骤。
一、单细胞基因富集分析算法一个不算正式的引言:目前来说,基于基因集进行分析已经开发出来了很多成体系的R包或者流程,理解来看,基因集评分其实就是自定义一个评分,然后来衡量目标基因集在某组织的表达情况,进而来推断其功能富集情况 ,所以说,这个给了我们以提示,算法是一定的,但是参考基因集可以是不同的,比如说铁死亡、铜死亡、细胞衰老等等目前来看,常见的针对单细胞的基因集富集分析算法有:GSEA、GSVA、AddModuleScore 3.对于是否进行批次效应的去除,因为我们需要进行差异分析获得可以排序的依据,所以这里笔者认为我们需要进行批次效应的去除,因为需要进行差异分析获得LogFC,但是简单来说就是输入数据其实就是可以进行差异分析的输入数据即可 ,也可能会产生不同的结果4.AUCell首先我们通过尽量简单的语言来回答一下AUCell算法,其实本质上就是计算我们所选择的参考基因集是否在单细胞中每个变量上富集,因为单细胞数据的变量是细胞ID,我们也可以说是计算是否在细胞上富集简单来说 ,并不会受到数据集异质性的影响2.对于处理大型数据具有一定优势3.可以方便衔接Seurat包,快捷方便好,那么介绍到这里,相信各位小伙伴依然还有疑惑,上述看似干货的东西显然并不能使我们掌握单细胞基因集富集分析
Seurat是一个分析单细胞转录组数据的R包,提供了t-SNE降维分析,聚类分析,mark基因识别等多种功能,网址如下 https://satijalab.org/seurat/ 基本用法如下 1. 导入10X 单细胞数据 library(Seurat) input_dir <- "/scRNA/outs/filtered_gene_bc_matrices/GRCh38/" pbmc.data <- Read10X(data.dir = input_dir) pbmc <- CreateSeuratObject(raw.data = pbmc.data, project = "<em>10</em>X") 2. percent.mito <- Matrix::colSums(pbmc@raw.data[mito.genes, ]) / Matrix::colSums(pbmc@raw.data)# 将统计的百分比数据添加对象中 聚类分析 聚类分析用于识别细胞亚型,在Seurat中,不是直接对所有细胞进行聚类分析,而是首先进行PCA主成分分析,然后挑选贡献量最大的几个主成分,用挑选出的主成分的值来进行聚类分析。
答应过大家要做全套视频讲解单细胞空间的分析内容,也因为很多人骂我而暂时搁置了。没有办法,人言可畏,当然,自己也有错。 图片 分析实例 图片 如上图所示,使用单细胞转录组(Th17p细胞和Th17n细胞)和代谢模型作为COMPASS的输入,经过流平衡分析(compass代谢分析算法),找到了两群细胞间异常的代谢通路及相关的反应 分析使用到的文件包括单细胞转录组数据和对应的代谢基因集,可以使用单细胞转录组的RDS文件和软件自带的代谢基因集。 代谢活性分析 首先,使用Vision算法进行代谢打分计算得分。 图片 类似于平时做的基于已有的功能数据集GSVA或者说ssGESA分析,其分析出的代谢结果可参考的价值并不大。 为了缓解这一技术短板,作者开发了一种新的计算方法,即单细胞通量估计分析(scFEA),以从scRNA-seq数据推断细胞内代谢物的通量研究。
图片相比较单细胞转录组,ATAC和VDJ的文章相对较少,当然了,分析起来也没有单细胞转录组那么容易,所以就导致了一般大家做单细胞都是3端转录组,ATAC和VDJ一般不考虑,不考虑不代表不重要,只是ATAC 好了,这一篇我们来汇总一下单细胞VDJ的分析,希望大家不要非在单细胞3端转录组上卷,毕竟ATAC和VDJ做的人不多,路比较宽,稍微走一走,就会达到事半功倍的效果,如果非要在单细胞转录组上卷,那付出的努力要更多才行 当然免疫相关的分析我也专业性不强,这也从侧面说明了VDJ分析的巨大潜力和研究价值,希望大家能在宽松的赛道上飞奔,而不是在单细胞转录组赛道上堵车。 :VDJ丰度,VDJ共享序列分析,VDJ序列与轨迹分析相结合分析变化(克隆迁移)图片 文章TDO2+ myofibroblasts mediate immune suppression in malignant 和 tumor,最好也取到pbmc样本 2、分析策略1、克隆丰度的变化(这个变化包括V、D、J基因的单独变化也包括组合的变化) 3、分析策略2、分析VDJ丰度变化一般伴随着轨迹分析,研究细胞在演化过程中的