对干扰素的应激导致细胞类型特异性基因表达发生变化,这使得对所有数据的联合分析变得困难。 在这里,我们展示了我们的整合策略,如 Stuart 和 Butler 等人,2018 年 所述,执行整合分析以促进常见细胞类型的识别并进行比较分析。 目的以下教程旨在为您概述使用 Seurat 整合后对复杂细胞类型进行的各种比较分析。 整体分析现在我们可以对所有细胞进行一个综合分析! 刺激 CD14 单核细胞后 CD14 表达降低,这可能导致监督分析框架中发生错误分类,强调了整合分析的价值。
Palantir/blob/master/notebooks/Palantir_sample_notebook.ipynb Palantir是一个2019年在nature biotechnology提出的用于单细胞数据轨迹推断的 unzip Palantir-master cd Palantir-master pip install . 2)示例数据 需要准备.h5ad的单细胞数据(count表达矩阵)格式,官方提供示例数据可直接下载 pd.DataFrame(ad.obsm['X_umap'], index=ad.obs_names) # umap可视化 sc.pl.embedding(ad, basis='umap') 3、轨迹推断分析
一、安装软件 1.1 Cell Ranger 下载安装(需注册) Cell Ranger 是 10X genomics 官网提供的单细胞数据分析软件。 可以直接输入 Illumina 原始数据 BCL 或 FASTQ 格式,Cell Ranger 集成了 10 x genomics 单细胞数据分析的一整套流程模块,可以直接进行碱基识别,文库拆分、细胞拆分 、输出表达定量矩阵、降维(pca),聚类以及可视化,配合另一套 Loupe Browser 软件,可以非常简单的探索单细胞数据。 ,输入文件为 Cell Ranger分析之后生成的.cLoupe 文件即可直接使用。 r-seurat mamba create -n umi_tools -y umi_tools 二、下载参考序列 10x genomics 官网提供了人和小鼠的参考基因组可以直接用于 cellranger 分析
scanpy和seurat是最常用的分析的单细胞的工具,seurat基于R,而scanpy基于python。 =sc.read_10x_mtx('data/filtered_gene_bc_matrices/hg19', var_names='gene_symbols', cache=True) #读取单细胞测序文件 sc.pp.regress_out(adata, ['total_counts', 'pct_counts_mt']) sc.pp.scale(adata, max_value=10) PCA主成分分析
在使用seurat进行单细胞分析的时候,大多数的教程都是用计数矩阵作为数据输入,但是我发现一些新手朋友对于不同数据库来源(GEO、BD)的数据或者想要去复现、借鉴一个感兴趣的文章中的下机数据时,不知道怎么把数据处理成 Seurat可以读入的计数矩阵,所以本篇文章就详细介绍单细胞数据的上游分析。 “Software Analysis”的界面提供了3种工具: Cell Ranger:比对质控需要用到的软件 Cloud Analysis:在线云分析软件,提供fastq文件即可分析 Loupe Browser 以下是读取GEO数据的几种常见方式,特别是如何将其导入Seurat进行分析。 1. 总的来说,大家获取数据的方式有两种,根据自己的研究目标、预算以及时间来决定是使用自己的测序数据还是依赖于公共数据库中的数据,无论哪种方式,弄懂上游分析对于下游分析有益无害哦~
单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ 单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ 单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵 单细胞专题 | 6.单细胞下游分析——不同类型的数据读入 ---- 1. ###============1、准备原始分析数据 fs = list.files('. # 这里设置对所有的基因都做了scale,但是需要知道的是,其实后续的分析都是基于高变基因的,因此,使用默认参数就可以了,而且提升效率 all.genes <- rownames(x = sce) sce >% group_by(cluster) %>% top_n(5, avg_log2FC) DoHeatmap(sce,top5$gene,size=3) 11.保存数据 保存数据用于后续进一步分析
在对单细胞数据进行差异表达分析的时候,可以从全细胞和元细胞两个角度去考虑。 基于全细胞目前常见的单细胞转录组计算差异表达基因方法有DESeq2、edgeR、limma、MAST、SCDE (Single Cell Differential Expression)、Seurat 所有步骤旨在优化数据质量、减少噪声并提取重要的基因特征,为后续的分析(如聚类和差异表达分析)做准备。最终,处理后的数据存储在 adata 对象中。 使用SEACells聚合细胞,然后在元细胞水平上,执行差异表达分析。 总结: 本节我们选择元细胞作为分析策略避免生物学噪音和dropout的干扰。
导读 本文将学习跨条件执行单细胞整合,以识别彼此相似的细胞。 1. 目标 跨条件对齐相同的细胞类型。 2. 挑战 对齐相似细胞类型的细胞,这样就不会因为样本、条件、模式或批次之间的差异而在后续分析中进行聚类。 3. 推荐 建议先不整合分析,再决定是否进行整合。 4. 这将使下游的结果更具可解释性(即 DE 分析、配体-受体分析)。在本课中,将介绍跨条件的样本整合,该教程改编自 Seurat v3 Guided Integration Tutorial[1]。 如果细胞按样本、条件、批次、数据集、模态进行聚类,则整合步骤可以极大地改善聚类和下游分析。 具体来说,这种整合方法期望组中至少一个单细胞子集之间存在“对应”或共享的生物状态。整合分析的步骤如下图所示: 应用的不同步骤如下: 典型相关分析 (CCA): CCA 识别条件/组之间的共享变异源。
raw.githubusercontent.com/farrellja/URD/master/URD-Install.R") library(URD) 因为没有找到提供的测试数据集,就用之前用seurat分析过的不同时期的心脏单细胞数据跑一边吧
image.png 下面就是跟单细胞一样的流程:降维聚类 brain <- RunPCA(brain, assay = "SCT", verbose = FALSE) brain <- FindNeighbors
我们之前的聚类分析结果如下: 记住,我们在聚类分析中遇到了以下问题: 簇 7 和 20 的细胞类型标识是什么? 对应于相同细胞类型的簇是否具有生物学意义的差异?这些细胞类型是否存在亚群? 特定簇之间的标记识别: 该分析探讨了特定簇之间的差异表达基因。用于确定上述分析中似乎代表相同细胞类型(即具有相似标记)的簇之间基因表达的差异。 5. 每个簇中的细胞被视为重复,本质上是通过一些统计测试进行差异表达分析。 ★注意:默认为 Wilcoxon 秩和检验,但还有其他可用选项。 计算每个条件的基因水平 p 值,然后使用 MetaDE R 包中的元分析方法跨组组合。 在我们开始我们的标记识别之前,我们将明确设置我们的默认分析,我们想要使用标准化数据,而不是簇数据。 探索细胞类型的子集以发现细胞亚群 > Web[1] 在条件 ctrl 和 stim 之间执行差异表达分析 如果试图确定细胞类型或细胞状态之间的情况,可以进行轨迹分析或谱系追踪: 分化过程 随时间变化的表达情况
,pseudobulks方法要优于single-cell分析方法,指出现在的很多发表的差异分析方法是错误的,会有太多的假阳性 Our findings suggest that many published 图1:系统性评测 目的就是看差异分析方法能不能得到最接近生物学差异的结果,因此作者使用了真实实验得到的数据,而不是模拟的数据。 它们的逻辑是:先把生物重复的样本整合,形成“pseudobulks”,再进行统计分析,而不是直接进行单个细胞间的比较,这两种逻辑的方法差异还是很明显的(图d)。 那么这里作者想:如果我先不整合,直接对每个细胞进行接下来的统计分析,效果如何呢? 人和小鼠的scRNA数据对比,人的生物学重复波动要更大,因此解决单细胞组织差异性,对于差异分析至关重要
导读 本文将介绍并实战搭建分析单细胞的环境。 1.
引言 本教程将指导您如何在Signac平台上进行DNA序列的基序(Motif)分析。 会介绍两种基序分析的方法:一种是在一组差异可访问的峰值中寻找出现频率较高的基序;另一种是在不同细胞群组间进行基序活性的差异分析。 对于像单细胞染色质可及性测序(scATAC-seq)这样的稀疏数据,通常需要在 FindMarkers() 函数中调低 min.pct 的阈值,因为默认值(0.1)是针对单细胞 RNA 测序(scRNA-seq MotifPlot( object = mouse_brain, motifs = head(rownames(enriched.motifs)) ) Mef 家族的基序,尤其是 Mef2c,在单细胞染色质可及性测序 计算基序活性 还可以通过执行 chromVAR 分析来为每个细胞计算基序活性得分。这不仅使能够按细胞查看基序活性,还为提供了一种识别不同细胞类型中活性差异基序的新方法。
学习目标 知道如何导入和读取数据,并了解数据的质控,能够对数据进行质控和分析。 1. 质控准备 在基因表达定量后,需要将这些数据导入到 R 中,以生成用于执行 QC(质控)。 由于样本是 PBMC,预计包含免疫细胞,例如: B细胞 T细胞 NK细胞 单核细胞 巨噬细胞 巨核细胞(可能) 推荐在质控或分析前,对自己的样本有充分的了解,这对于后续的分析十分有帮助。 3. 倾向于优先分析,但数据管理的许多其他重要方面,往往在第一次看到新数据中被忽视。哈佛大学的生物医学数据管理[4] 很好的讲述了这一过程。 数据管理的一个重要方面是组织。 对于处理和分析数据的每个实验,通过创建计划的存储空间(目录结构)来组织被认为是最佳实践。 通常,检测到的基因少于 100 个的细胞不被考虑用于分析。 当使用 Read10X() 函数读入数据时,Seurat 会自动为每个单元格创建一些元数据。
单细胞RNA测序(scRNA-seq)和DNA测序(scDNA-seq)都可以应用于细胞水平基因组分析。对于突变分析,scDNA-seq似乎更常见。
引言 本系列讲解 单细胞(scRNA-seq)中RNA“速率”分析教程[1],持续更新,欢迎关注,转发! 关于 scVelo 在单个细胞中测量基因活性时,通常需要破坏细胞以读取其内部信息。 这一概念利用了在常见单细胞 RNA 测序技术中,新转录的、未剪接的前体 mRNA 和成熟的、剪接的 mRNA 可以被区分开来的事实(新转录的 mRNA 可通过内含子的存在来识别)。
非负矩阵分解是一种用于分析高维数据的方法,它可以从一组非负数据向量中提取稀疏且有意义的特征。 该方法非常适合分解单细胞RNA测序数据,有效地将大型的复杂矩阵(基因数量乘以细胞数量)分解为几个可解释的基因程序。 非负矩阵相关内容请参阅既往推文:单细胞非负矩阵分解分析python版(cNMF)学习:https://mp.weixin.qq.com/s/aTIR8eJHhXFiQZBvO72fOw转录组非负矩阵分解 geneNMF分析流程1.导入rm(list = ls())library(GeneNMF)library(Seurat)library(ggplot2)library(UCell)library(patchwork weight.explained = 0.7, max.genes=100)5.对基因programs进行GSEA分析
单细胞测序介绍 从单细胞层面分析生物学现象一直是生物医学研究的常见做法。包括我们做分子生物学实验培养细胞也是在单细胞群体的基础上进行实验。 单细胞测序技术 根据取样的不同,单细胞测序技术分为单细胞转录组测序技术和单细胞空间转录组测序技术,当然还有更加的细分,比如smart seq2,ATAC等,我们这里只介绍符合10x规范的单细胞数据分析, 单细胞转录组测序 单细胞转录组测序顾名思义就是基于单个细胞的转录水平的测序,利用的原理就是经典的油包水检测原理,将细胞打散然后进行耽搁细胞的建库分析。 单细胞数据分析 实际上目前单细胞测序基本都是商业公司上门处理和检测的,并且一般会给出常规分析报告。所以后续的重中之重就是放在测序数据的分析上。我会在后面分步骤的一个个来说明。主要如下: 1. 复杂细胞的定义marker 5. cellphone细胞通讯分析 6. monocal3细胞轨迹分析 7. senice重要转录因子的筛选 8.