在我们分析之前,最好是先阅读一下相关的文献综述。对于单细胞数据的分析,我找了几篇相关的文献综述。 2.数据矩阵生成和质量控制 单细胞分析的一个关键技术进步是barcode的发展,它允许大规模并行化,同时保持成本最低。barcode被添加到在逆转录过程中的RNA分子中,允许识别单个细胞和独特的分子。 环境RNA是存在于单细胞溶液中的RNA,在包裹过程中被整合到油滴中。我们通常使用SoupX,它可以从空液滴中估计周围的RNA污染(图2)。 相同细胞类型的标记基因在不同的数据集可能不同。 6.细胞水平分析:细胞组分变化,分解和轨迹分析 细胞组分的变化(数据集中每种细胞类型的比例)与疾病状态有很强的相关性,这是单细胞分析最简单的结果之一。 为了从每种细胞类型调用峰,将从相同细胞类型获得的所有片段聚合以构建伪批量ATAC数据集和MACS2,分别针对每种细胞类型进行。
distinct(a,`alias:gene`,.keep_all = T)#去重复 a = column_to_rownames(a,var = "alias:gene") a[1:4,1:4] #从GEO下载的数据需要自己处理后读取 3, min.features = 200) exp = pbmc[["RNA"]]@counts;dim(exp) exp[1:4,1:4] 2. wt = avg_log2FC) mks g = unique(mks$gene) g 5.makergene的可视化 DoHeatmap(pbmc, features = g) + NoLegend ()+ scale_fill_gradientn(colors = c("#2fa1dd", "white", "#f87669")) DotPlot(pbmc, features = g,cols /supp/markers.txt",header = F) gt = split(a[,2],a[,1]) DotPlot(pbmc, features = gt,cols = "RdYlBu")
scanpy和seurat是最常用的分析的单细胞的工具,seurat基于R,而scanpy基于python。 linux下用pip安装scanpy pip install scanpy 下载测试数据 mkdir data wget http://cf.10xgenomics.com/samples/cell-exp import scanpy as sc sc.settings.verbosity = 3 # verbosity: errors (0), warnings (1), info (2) sc.pp.regress_out(adata, ['total_counts', 'pct_counts_mt']) sc.pp.scale(adata, max_value=10) PCA主成分分析 使用标准化的数据进行可视化 sc.pl.umap(adata, color=['CST3', 'NKG7', 'PPBP'], use_raw=False) ?
其主要包含了许多专门用于分析某一类生信数据的包。(当然也包含一些数据包) ? Bioconductor 2、基础操作 2.1 设置镜像 提高下载安装包的速度。 p=1 关于R的一些基础知识就简单介绍这么多了;相信来了解scRNA-seq数据分析的读者多少对R也已经比较了解了。 下一节会介绍SingleCellExperiment,这个贯穿教程始终的数据结构组成。 ? 13个不同组织器官的超10万个细胞才85个亚群(单细胞ATAC路在何方) ---- ---- ---- 如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程 数据挖掘(GEO ,TCGA,单细胞)2021第2期 生信爆款入门-2021第2期 96核心384G内存的超级服务器(共享)使用权一年 ?
引言 本系列讲解 使用 Scanpy 分析单细胞(scRNA-seq)数据 教程[1],持续更新,欢迎关注,转发! 基于已知标记基因识别细胞簇 通常,细胞簇需要利用众所周知的标记基因来进行标注。 这些信息可以用来按如下方式手动注释细胞: # create a dictionary to map cluster to annotation label cluster2annotation = { "0": "Monocytes", "1": "NK", "2": "T-cell", "3": "Dendritic", "4": "Dendritic", type", legend_loc="on data", frameon=False, legend_fontsize=10, legend_fontoutline=2, sc.pl.violin(pbmc, ["CD79A", "MS4A1"], groupby="clusters") 注意:Violin plots 也可用于绘制任何保存在 .obs 中的数值型数据
使用GSE218208数据为例library(celldex)#使用celldex包里的注释数据#下载到本地library(SingleR)ls("package:celldex")f = ".. file.exists(f)){ ref <- celldex::BlueprintEncodeData() save(ref,file = f)}ref <- get(load(f))#把里面的数据提取出来生成新的数据 new.cluster.ids) <- levels(scRNA)levels(scRNA)scRNA <- RenameIdents(scRNA,new.cluster.ids)levels(scRNA)p2 <- DimPlot(scRNA, reduction = "umap",label = T,pt.size = 0.5) + NoLegend()p1+p2图片
引言 本系列开启R中单细胞RNA-seq数据分析教程[1],持续更新,欢迎关注,转发! 导入Seurat包 首先,请确认你的R软件已经安装了Seurat这个包。 创建Seurat对象 Seurat 引入了一种新的数据类型,称为“ Seurat ”。这种数据类型使得 Seurat 能够记录整个分析过程中的所有步骤和结果。 单细胞RNA-seq数据分析中最常用的标准化方法与TPM(每百万读数的转录本数)概念类似 - 即对每个细胞的特征表达量进行标准化,然后乘以一个缩放因子(默认为10000)。 因此,在深入分析scRNA-seq数据之前,进行恰当的特征选择是非常必要的。 在Seurat或者更广泛地说,在单细胞RNA-seq数据分析中,这一步通常涉及到识别表达水平在细胞间变化最大的高变异性特征/基因。
作者,Evil Genius目前分析scATAC的几款软件包括signac(R版本)、ArchR(R版本)、epiScanpy(python版本)、 SnapATAC2(python版本),各自都发了大文章 :https://kzhang.org/SnapATAC2/tutorials/pbmc.html主流的分析:scATAC基础分析、单细胞RNA和ATAC联合分析、ATAC的区域差异分析、ATAC的多样本联合分析 、多组学分析(ATAC + RNA)。 大家只要玩明白其中的一个,单细胞联合ATAC分析就不是问题。今天我们分享的是snapATAC2,2024年1月发表于Nature Methods。 RNA与ATAC的联合分析import warningswarnings.filterwarnings("ignore")import snapatac2 as snapimport anndata as
导读 本文将学习跨条件执行单细胞整合,以识别彼此相似的细胞。 1. 目标 跨条件对齐相同的细胞类型。 2. 想要识别存在于数据集中所有的细胞类型,因此希望观察每个簇中两个样本/条件/模态中的细胞表示。这将使下游的结果更具可解释性(即 DE 分析、配体-受体分析)。 如果细胞按样本、条件、批次、数据集、模态进行聚类,则整合步骤可以极大地改善聚类和下游分析。 具体来说,这种整合方法期望组中至少一个单细胞子集之间存在“对应”或共享的生物状态。整合分析的步骤如下图所示: 应用的不同步骤如下: 典型相关分析 (CCA): CCA 识别条件/组之间的共享变异源。 执行相互分析,如果两个细胞在两个方向上都是best buddies,那么这些细胞将被标记为anchors,以将两个数据集“锚定”在一起。
source("https://raw.githubusercontent.com/farrellja/URD/master/URD-Install.R") library(URD) 因为没有找到提供的测试数据集 ,就用之前用seurat分析过的不同时期的心脏单细胞数据跑一边吧。 1.导入数据 library(URD) # Create an URD object, which will filter the data, then normalize and log-transform E9.5_P21.combined@assays$RNA@counts, meta = E9.5_P21.combined@meta.data, min.cells=3, min.counts=3) 2. 3.计算PCA和t-SNE testsample <- calcPCA(testsample, mp.factor = 2) pcSDPlot(testsample) ?
在使用seurat进行单细胞分析的时候,大多数的教程都是用计数矩阵作为数据输入,但是我发现一些新手朋友对于不同数据库来源(GEO、BD)的数据或者想要去复现、借鉴一个感兴趣的文章中的下机数据时,不知道怎么把数据处理成 Seurat可以读入的计数矩阵,所以本篇文章就详细介绍单细胞数据的上游分析。 10X平台数据 上游分析主要涉及的步骤就两个:比对和质控。我们可以先从10X平台官网了解一些软件和方法。 以下是读取GEO数据的几种常见方式,特别是如何将其导入Seurat进行分析。 1. 总的来说,大家获取数据的方式有两种,根据自己的研究目标、预算以及时间来决定是使用自己的测序数据还是依赖于公共数据库中的数据,无论哪种方式,弄懂上游分析对于下游分析有益无害哦~
单细胞RNA测序(scRNA-seq)和DNA测序(scDNA-seq)都可以应用于细胞水平基因组分析。对于突变分析,scDNA-seq似乎更常见。 scRNA-seq通常具有更大的数据量和更好的数据质量。但目前DNA测序中检测突变的方法多种多样,尚不清楚这些方法是否可以用于scRNA-seq数据。 对Bulk RNAseq或scDNA-seq数据开发的突变检测方法不适用于scRNA-seq数据,因为它们会产生过多的假阳性。 他们将SCmut应用于几个scRNA-seq数据集。在scRNA-seq乳腺癌数据集中,SCmut可以识别许多高度可信的细胞水平突变,这些突变在许多细胞中都反复出现,并且在不同样品中保持一致。 然后,结合从scRNA-seq中提取的单个细胞的single-nucleotide variants (SNV),SCmut使用二维局部错误发现率(2D local fdr)方法在细胞水平上统计检测体细胞突变
这些重组事件发生在称为互补决定区(CDR) 3的连接处,而CDR1和CDR2完全在V基因区域内发现。由于CDR是与同源抗原结合的区域,它们,特别是CDR3区域,一直是大多数下游分析的重点。 已经出现了一些工具,提供了专门用于处理单细胞数据的不同分析选项,包括scipy、Dandelion和scRepertoire。 需要注意的是,植入套件不能明确地与scRNA-seq分析工具包交互,这对于一些用户在确定单细胞数据集的相关分析策略时可能具有挑战性。 大多数单细胞免疫库分析工具旨在将scTCR/BCR-seq数据与这些单细胞数据格式相结合,以便进行进一步的探索,例如执行过滤和质量控制检查,克隆分型,克隆扩增量化和克隆多样性估计。 scRepertoire将TCR/BCR数据附加到单细胞元数据中,可用于仅基因组分析和与基因表达数据的组合分析。
背景 当前的单细胞测序主要采用 illumina 测序平台进行测序,一般为双末端测序,测序完成之后首先需要对 illumina 测序数据进行质控过滤,过滤条件与其他分析类似。 需要注意的是,虽然单细胞测序也是双末端测序,但是 reads1 中通常为 barcode+umi 序列,reads2 为转录本序列。 单细胞分析流程 单细胞的数据处理主要包括 illumina 数据碱基识别,数据质控过滤,生成 feature-count 矩阵等过程。这些过程都可以使用 cellranger 完成。 4.2 细胞计数质控(cell QC) 细胞计数质控是单细胞数据分析中非常重要的内容。因为 10xgenomics 是采用液滴型的捕获细胞方法。 在单细胞分析中需要将这些多细胞以及空细胞都过滤掉,只对单细胞结果进行分析。那么如何判断是否为单细胞呢?
在对单细胞数据进行差异表达分析的时候,可以从全细胞和元细胞两个角度去考虑。 基于全细胞目前常见的单细胞转录组计算差异表达基因方法有DESeq2、edgeR、limma、MAST、SCDE (Single Cell Differential Expression)、Seurat 所有步骤旨在优化数据质量、减少噪声并提取重要的基因特征,为后续的分析(如聚类和差异表达分析)做准备。最终,处理后的数据存储在 adata 对象中。 使用SEACells聚合细胞,然后在元细胞水平上,执行差异表达分析。 总结: 本节我们选择元细胞作为分析策略避免生物学噪音和dropout的干扰。
基础知识单细胞数据的应用方向图片单细胞数据的存放位置图片单细胞数据的分析流程图片高变基因:方差最大的2000个基因。marker基因:每个细胞簇中表达显著的基因。 R包准备代码:https://satijalab.org/seurat/v3.0/pbmc3k_tutorial.html数据:https://s3-us-west-2.amazonaws.com/10x.files 读取数据10X的输入数据是固定的三个文件,在工作目录下新建01_data/,把三个文件放进去。 ]@scale.data[30:34,1:3]5.1 线性降维PCApbmc <- RunPCA(pbmc, features = VariableFeatures(pbmc))##只选择了高变化基因分析 reduction = "pca")#每个主成分对应基因的热图DimHeatmap(pbmc, dims = 1:15, cells = 500)# 应该选多少个主成分进行后续分析ElbowPlot(
内容 在本示例中,我们将展示如何利用一个已经建立的参考数据集来解读单细胞RNA测序(scRNA-seq)查询: 根据参考数据集定义的细胞状态集,对每个查询细胞进行标注。 该分析旨在找出转录组数据的最佳转换方式,以最准确地反映加权最近邻(WNN)图中的结构特征。 提供的数据集是一个合并后的对象,涵盖了8位捐献者的数据。我们首先需要将这些数据拆分成8个独立的Seurat对象,对应每位捐献者,然后分别进行映射分析。 = 3) p1 + p2 + plot_layout(guides = "collect") 我们还可以把所有的数据对象合并成一个统一的数据集。 需要注意的是,这些数据对象都已经通过参考集被整合到了一个共同的分析空间中。之后,我们就能够将这些数据的分析结果一并展现出来。
引言 在这篇指南[1]中,我们介绍了Seurat的一个新扩展功能,用以分析新型的空间解析数据,将重点介绍由不同成像技术生成的三个公开数据集。 这些细胞层面的基因表达概况与标准的单细胞RNA测序数据相似,可以运用相同的分析工具进行处理。 这些分析步骤同样适用于更大的“完整冠状切面”数据集,但处理时间会更长。 提供 Xenium 运行的数据文件夹的路径作为输入路径。 RNA 数据存储在 Seurat 对象的 Xenium 分析中。此步骤大约需要一分钟。 )参考数据的基础上,对空间数据集中的斑点数据进行解卷积分析。
导语 GUIDE ╲ 单细胞测序可以详细分析不同细胞类型的转录多样性。RCA2包是一种基于图的聚类算法,可以聚类大型scRNA-seq数据集并可视化。 背景介绍 今天小编为大家带来一个处理单细胞数据的R包——RCA2。RCA2以 scRNA-seq数据作为输入,可以对10X Genomics数据进行质量控制和预处理。 PBMCs<-RCAv2::dataLogNormalise(PBMCs) 03 将单细胞数据映射到reference数据上 RCA包提供了13个参考面板。 RCA2在相对于RCA1在速度、性能上进行了优化,大大扩展了包含的参考数据集,并且可以更轻松地处理大型单细胞数据集(无监督聚类进行注释的新方法)。 那么今天使用RCA2处理单细胞数据的方法小编就全部介绍完啦,有兴趣的同学可以自己尝试一下哦!
本系列持续更新Seurat单细胞分析教程,欢迎关注! 标准化 从数据集中删除不需要的细胞后,下一步是数据标准化。 特征选择:识别高度可变的特征 接下来,我们计算数据集中表现出高细胞间差异的特征子集(即它们在某些细胞中高度表达,而在其他细胞中表达较低)。在下游分析中关注这些基因有助于突出单细胞数据集中的生物信号。 默认情况下Seurat每个数据集返回 2,000 个特征。这些将用于下游分析,例如 PCA。 对于第一个主成分,Seurat 输出具有最大正负载荷的基因列表,代表在数据集中的单细胞之间表现出相关(或反相关)的基因模块。 将细胞设置为数字会在频谱两端绘制“极端”细胞,这会显着加快大型数据集的绘图速度。虽然是一种监督分析,但我们发现这是探索相关特征集的宝贵工具。