笔记要点 1、关于降维的背景知识 2、PCA降维的简单理解与应用 3、选择最佳PCs数量的思路 4、降维可视化 ---- 1、关于降维的背景知识 (1)在单细胞表达矩阵中,细胞的维度定义就是:有多少个基因表达数据 ; (4)基于上述因素,单细胞数据降维就是使用几十个维度的特征信息,来衡量细胞间的距离,大大减少计算量;并且可一定程度上去除技术误差,以及对细胞间相对位置的二维可视化提供便利。 "percentVar") # [1] 24.5181077 7.1739169 4.8484962 2.7507716 2.3263866 1.4646539 1.0064506 # [8] 往期回顾 多发性骨髓瘤发展过程中肿瘤和免疫细胞的共同进化 单细胞数据Seurat包的tSNE三维可视化 任意细胞亚群的差异分析 进阶版—doplot可视化多个单细胞亚群的多个标记基因 单细胞亚群细胞数量不一致 提取单细胞亚群进行后续再分析 ---- ---- ---- 如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程 生信爆款入门-2021第3期 数据挖掘线下重启(长沙站)(周六日
scanpy和seurat是最常用的分析的单细胞的工具,seurat基于R,而scanpy基于python。 linux下用pip安装scanpy pip install scanpy 下载测试数据 mkdir data wget http://cf.10xgenomics.com/samples/cell-exp =sc.read_10x_mtx('data/filtered_gene_bc_matrices/hg19', var_names='gene_symbols', cache=True) #读取单细胞测序文件 sc.pp.regress_out(adata, ['total_counts', 'pct_counts_mt']) sc.pp.scale(adata, max_value=10) PCA主成分分析 使用标准化的数据进行可视化 sc.pl.umap(adata, color=['CST3', 'NKG7', 'PPBP'], use_raw=False) ?
使用GSE218208数据为例library(celldex)#使用celldex包里的注释数据#下载到本地library(SingleR)ls("package:celldex")f = ".. file.exists(f)){ ref <- celldex::BlueprintEncodeData() save(ref,file = f)}ref <- get(load(f))#把里面的数据提取出来生成新的数据
背景介绍 单细胞数据分析在近几年一直是个热点,今天小编为大家带来的这篇文章,作者通过非负矩阵分解 (NMF) 分析了来自 33 个 CRC 肿瘤样本的单细胞 RNA-seq 数据的总共 65,362 个单细胞 伪时间分析显示,m6A RNA 调节因子在包括成纤维细胞、NK 细胞、巨噬细胞、CD4 + T 细胞和 CD8 + T 细胞等在内的 TME 细胞的轨迹过程中发挥着关键作用(图 2A)。 04 m6A介导的T/B细胞表型强调了CRC中的抗肿瘤免疫反应 在检测到的 23,115 个 T 细胞中,本研究确定了 8 种主要细胞类型,包括 CD4+、CD8+、Treg、NK等,以进行进一步分析( 然后,根据 m6A 介导的 TME 细胞的所有 DEG,本研究使用 GSVA 计算 m6A 子评分,并通过对来自8个和11个CRC队列的1892和2315例CRC患者的OS和RFS进行meta分析,探讨它们在 图 6 小编总结 本研究首次通过单细胞测序分析方法,鉴定了TME细胞特异性RNA m6A修饰的细胞亚型,揭示了m6A甲基化介导的肿瘤微环境细胞间通讯在调控肿瘤生长和抗肿瘤免疫调节过程中的作用。
导读 本文将学习跨条件执行单细胞整合,以识别彼此相似的细胞。 1. 目标 跨条件对齐相同的细胞类型。 2. 想要识别存在于数据集中所有的细胞类型,因此希望观察每个簇中两个样本/条件/模态中的细胞表示。这将使下游的结果更具可解释性(即 DE 分析、配体-受体分析)。 如果细胞按样本、条件、批次、数据集、模态进行聚类,则整合步骤可以极大地改善聚类和下游分析。 具体来说,这种整合方法期望组中至少一个单细胞子集之间存在“对应”或共享的生物状态。整合分析的步骤如下图所示: 应用的不同步骤如下: 典型相关分析 (CCA): CCA 识别条件/组之间的共享变异源。 执行相互分析,如果两个细胞在两个方向上都是best buddies,那么这些细胞将被标记为anchors,以将两个数据集“锚定”在一起。
source("https://raw.githubusercontent.com/farrellja/URD/master/URD-Install.R") library(URD) 因为没有找到提供的测试数据集 ,就用之前用seurat分析过的不同时期的心脏单细胞数据跑一边吧。 1.导入数据 library(URD) # Create an URD object, which will filter the data, then normalize and log-transform
在使用seurat进行单细胞分析的时候,大多数的教程都是用计数矩阵作为数据输入,但是我发现一些新手朋友对于不同数据库来源(GEO、BD)的数据或者想要去复现、借鉴一个感兴趣的文章中的下机数据时,不知道怎么把数据处理成 Seurat可以读入的计数矩阵,所以本篇文章就详细介绍单细胞数据的上游分析。 10X平台数据 上游分析主要涉及的步骤就两个:比对和质控。我们可以先从10X平台官网了解一些软件和方法。 以下是读取GEO数据的几种常见方式,特别是如何将其导入Seurat进行分析。 1. 总的来说,大家获取数据的方式有两种,根据自己的研究目标、预算以及时间来决定是使用自己的测序数据还是依赖于公共数据库中的数据,无论哪种方式,弄懂上游分析对于下游分析有益无害哦~
单细胞RNA测序(scRNA-seq)和DNA测序(scDNA-seq)都可以应用于细胞水平基因组分析。对于突变分析,scDNA-seq似乎更常见。 scRNA-seq通常具有更大的数据量和更好的数据质量。但目前DNA测序中检测突变的方法多种多样,尚不清楚这些方法是否可以用于scRNA-seq数据。 对Bulk RNAseq或scDNA-seq数据开发的突变检测方法不适用于scRNA-seq数据,因为它们会产生过多的假阳性。 他们将SCmut应用于几个scRNA-seq数据集。在scRNA-seq乳腺癌数据集中,SCmut可以识别许多高度可信的细胞水平突变,这些突变在许多细胞中都反复出现,并且在不同样品中保持一致。 在(i)中,发现的细胞水平突变在肿瘤细胞和非肿瘤细胞之间被很好地分开,在(ii)中,突变被同时在两个独立的数据集中发现。
背景 当前的单细胞测序主要采用 illumina 测序平台进行测序,一般为双末端测序,测序完成之后首先需要对 illumina 测序数据进行质控过滤,过滤条件与其他分析类似。 单细胞分析流程 单细胞的数据处理主要包括 illumina 数据碱基识别,数据质控过滤,生成 feature-count 矩阵等过程。这些过程都可以使用 cellranger 完成。 4.2 细胞计数质控(cell QC) 细胞计数质控是单细胞数据分析中非常重要的内容。因为 10xgenomics 是采用液滴型的捕获细胞方法。 在单细胞分析中需要将这些多细胞以及空细胞都过滤掉,只对单细胞结果进行分析。那么如何判断是否为单细胞呢? 一个简单的判断是根据 reads 数据的多少,例如空细胞 reads 条数少,单细胞正好,多细胞最多。
在对单细胞数据进行差异表达分析的时候,可以从全细胞和元细胞两个角度去考虑。 基于全细胞目前常见的单细胞转录组计算差异表达基因方法有DESeq2、edgeR、limma、MAST、SCDE (Single Cell Differential Expression)、Seurat 所有步骤旨在优化数据质量、减少噪声并提取重要的基因特征,为后续的分析(如聚类和差异表达分析)做准备。最终,处理后的数据存储在 adata 对象中。 使用SEACells聚合细胞,然后在元细胞水平上,执行差异表达分析。 0.05, logp_max=10) # 绘制火山图 dds_meta.plot_volcano(title='DEG Analysis', figsize=(4, 4), plot_genes_num=8,
基础知识单细胞数据的应用方向图片单细胞数据的存放位置图片单细胞数据的分析流程图片高变基因:方差最大的2000个基因。marker基因:每个细胞簇中表达显著的基因。 ]@scale.data[30:34,1:3]5.1 线性降维PCApbmc <- RunPCA(pbmc, features = VariableFeatures(pbmc))##只选择了高变化基因分析 dims = 1:2, reduction = "pca")#每个主成分对应基因的热图DimHeatmap(pbmc, dims = 1:15, cells = 500)# 应该选多少个主成分进行后续分析 FeaturePlot(pbmc, features = c("MS4A1", "GNLY", "CD3E", "CD14", "FCER1A", "FCGR3A", "LYZ", "PPBP", "CD8A "CD14+ Mono", "Memory CD4 T", "B", "CD8
单细胞测序技术的发展日新月异,新的分析工具也层出不穷。每个工具都有它的优势与不足,在没有权威工具和流程的单细胞生信江湖里,多掌握几种分析方法和工具,探索数据时常常会有意想不到的惊喜。 往期专题 单细胞初级8讲和高级分析8讲 单细胞分析十八般武艺1:harmony 单细胞分析十八般武艺2:LIGER 单细胞分析十八般武艺3:fastMNN 单细胞分析十八般武艺4:velocyto 单细胞分析十八般武艺 5:monocle3 单细胞分析十八般武艺6:NicheNet 单细胞分析十八般武艺7:CellChat Garnett简介 分析原理 Garnett使用人工定义的marker基因信息来选择细胞,然后基于这些细胞使用弹性网络回归 使用单细胞数据创建monocle3的CDS数据对象(cds object)。 数据下载 下载PBMC单细胞数据,marker file和预先训练好的分类器。
引言 本系列开启 R 中单细胞RNA-seq数据分析教程[1],持续更新,欢迎关注,转发! 3. 如何比较不同数据整合方法 当数据集完成整合后,就可以进一步开展多种分析了,这些分析内容包括但不限于第 1 部分提及的细胞聚类、标记识别、细胞聚类重新注释、伪时间分析、分支点分析以及 RNA 速度分析等。 此外,还能对同一聚类中不同样本或条件下细胞的差异表达情况进行分析。 不过,在深入研究前,需要确定采用哪种数据整合方法。 数据整合的目的通常是让不同数据集中的细胞相互混合。 除非这些数据集完全不存在共有的细胞类型,否则不同数据集的细胞应该会出现部分或全部混合的情况; 数据整合的目的并非单纯地让不同数据集的细胞混合,而是要让相同细胞类型或状态的细胞相互融合。
一般从公司拿到单细胞测序原始数据是这样的: ? image.png 因此第一步就需要把这些数据按照I1 R1 R2 用zcat追加起来 for i in `ls rawdata/Day1/*gz|cut -d '/' -f3 | cut -d '_' zcat rawdata/Day1/${i}_R2_001.fastq.gz >> mergedata/Day1/Day1_S1_L001_R2_001.fastq done cellranger的数据输入为存储数据的文件夹 #注释文件 --transcriptome=cellranger_rn6 \ --sample=Day1 \ --localcores=10 从cellranger得到表达矩阵就可以导入Seurat分析啦
经常有人问我单细胞GSVA分析应该用Seurat对象中的哪个数据,因为我此前的推文《单细胞转录组高级分析五:GSEA与GSVA分析》用的counts数据,后面有一篇推文《非人物种的GSEA&GSVA分析 小结:scale.data数据并不能加快GSVA的运行时间。 分析结果对比 为了客观地对比不同数据运行GSVA之后的差异,我用pearson相关性热图给大家展示。 小结:GSVA分析使用counts数据和data数据没有差别,但是使用scale.data数据会影响结果。 减少基因数量可行吗? 写这篇推文时我突发奇想:使用高变基因来做GSVA分析可行吗? F, show_colnames = F, filename = paste0("AllGenes_vs_",i,"HVGs.png"), width = 8, 小结:不能使用高变基因的表达矩阵代替原始表达矩阵做GSVA分析。 交流探讨:如果您阅读此文有所疑惑,或有不同见解,亦或其他单细胞需求,可以点击阅读原文联系。 ?
单细胞数据分析常用到建立trajectory和pseudoTime,拟时序分析可以用 Diffusion( Destiny R package) #Diffusion PseudoTime Analysis :3], col = log2(guo_norm$num_cells), type = 's', radius = .01) view3d(theta = 10, phi = 30, zoom = .8) image.png detiny的数据输入格式为Biobase包建立的ExpressionSet格式的文件,如果我们的数据是表达矩阵,则数据需要转化成这个格式,如seurat包里面的数据Seurat.object
单细胞数据复现-肺癌文章代码复现1https://cloud.tencent.com/developer/article/1992648 单细胞数据复现-肺癌文章代码复现2https://cloud.tencent.com /developer/article/1995619 单细胞数据复现-肺癌文章代码复现3https://cloud.tencent.com/developer/article/1996043 单细胞数据复现 -肺癌文章代码复现4https://cloud.tencent.com/developer/article/2006654 单细胞数据复现-肺癌文章代码复现5https://cloud.tencent.com /developer/article/2008487 单细胞数据复现-肺癌文章代码复现6https://cloud.tencent.com/developer/article/2008704 单细胞数据复现 ,然后文章开始对每个亚群的相关性的细胞进行分析。
Ouyang团队开发的单细胞分析工具包,实现基于shiny网页交互式展示单细胞数据;于2021年3月发表于Bioinformatics杂志。 ,包括Seurat, SCE(singlecellexperiment), h5ad, loom;并均提供了相应的示例文件; 如其文档所强调,ShinyCell是一个可视化工具,而不是分析工具;所以提供的单细胞数据需要已经完成基础的上游分析 = readRDS("readySeu_rset.rds") 单细胞数据里需包括 (1)标准化表达矩阵; (2)细胞meta信息; (3)降维信息。 默认情况下会使用全部的meta信息,如需调整一方面可直接修改原来的单细胞数据;另一方面也可以使用ShinyCell包进行部分修改,如下所示。 (四):降维 单细胞最好的教程(三):特征基因选择 单细胞最好的教程(二):归一化 Python 单细胞分析教程(一):质量控制 单细胞分析工具||COSG鉴定marker基因
他们提到了单细胞数据分析的“诅咒”(curses)。 单细胞转录组差异分析之所以困难,主要是由于以下8个方面的原因: 标准化(Normalization)问题: 单细胞数据需要经过标准化来校正PCR扩增偏倚、批次效应以及数据分布的偏差。 数据稀疏性: 单细胞数据通常非常稀疏,每个样本中表达的基因数量较少,这增加了分析的复杂性。 计算复杂性: 处理和分析单细胞数据需要复杂的计算方法和较大的计算资源。 数据集涉及8种不同的细胞类型,每个细胞类型分为未刺激对照组和IFN-β刺激组。
不开玩笑,只需要你设计实验收集样品花钱在公司测序了即可,数据分享到公开数据库后就可以发表在《 BMC Genomic Data》杂志啦,比如2023年8月7号见刊的《The single-cell transcriptome ,然后看看随着脂多糖(LPS)处理时间段变化的基因,通路以及细胞亚群,但是单细胞ATAC数据作者给出来的文件应该是不够的,可能是需要去 PRJNA938112 里面下载原始数据后进行处理啦。 scATAC-seq技术原理 单细胞ATAC-seq 同样的,单细胞ATAC-seq也是上下游独立开,走在Linux系统的cellranger-atac软件进行上游分析,然后走R语言里面的下游统计可视化即可 Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma》,非常贴心的整理了其全套单细胞多组学下游分析 我下载并且解压看了看,还是有很多可取之处,所以组建交流群号召大家一起解读一下这些代码,而且我们 提供这个文章附带的PRJNA768891数据集的上游分析结果给大家哈。