红细胞基因:在某些情况下,红细胞基因可能在特定类型的细胞(如红细胞)中高度表达,这可能会影响对其他细胞类型基因表达的分析。但是有些测量红细胞基因表达离群值太大或者太小那肯定不对,需要删除这样的。 :单细胞数据集可能来自不同的实验批次或平台,这些批次效应(batch effects)可能导致数据在分析时出现偏差。 通过这些分析可能能发现新的细胞类型,揭示细胞之间的欢喜等,同时可以减少噪声和批次效应。多样本整合:使用harmony,它需要的计算资源少,且准确程度高,是最受欢迎的方法。 但是有一个致命缺点,想看的基因多的话数据太多了7.5 VlnPlot三个基因有点拥挤,换成两个了8.伪bulk 转录组差异分析bulk转录组:"Bulk"转录组通常指的是传统的、非单细胞分辨率的转录组分析多样本才能做这个分析 #意义是什么,好吧看到后面理解啦,话火山图用的,要不怎么花差异基因图AggregateExpression是把单细胞数据整合为常规转录组数据的方式。
引言 本系列开启R中单细胞RNA-seq数据分析教程[1],持续更新,欢迎关注,转发! 8. 细胞聚类 分析 scRNA-seq 数据时,绘制标记基因的特征图通常是一个良好的起点。 这个功能的作用是针对特定的细胞簇,通过Wilcoxon秩和检验方法,分析该簇内的细胞与簇外细胞在基因表达上的差异。 logfc.threshold = log(1.2)) library(dplyr) cl_markers %>% group_by(cluster) %>% top_n(n = 2, wt = avg_logFC) 鉴于单细胞 例如,NEUROD2 和 NEUROD6 是第 2 群的显著标记基因,可以进一步分析它们的表达情况。 综合分析,可以有较高的信心认为,聚类 0、6 和 2 都是背侧端脑细胞,聚类 0 是祖细胞,聚类 6 是中间祖细胞,聚类 2 是神经元。
Smart-seq2:通量相对较低,但测序深度高,因此适宜单细胞水平的转录本或可变剪切分析,突变检测等。 关于SingleCellExperiment介绍,可参考OSCA单细胞数据分析笔记-3 SingleCellExperiment数据结构。 )质控:过滤出不合格、或者是低质量的细胞; (2)标准化:类似Bulk RNA-seq,为了使不同细胞间细胞表达更具有可比性; (3)挑选高变基因:为降维做准备,降低无表达变化基因的噪音信息干扰; (4) (3)Feature selection. library(scran) dec <- modelGeneVar(sce) hvg <- getTopHVGs(dec, prop=0.1) # (4) 往期回顾 单细胞分析十八般武艺2:LIGER 单细胞揭示不同类型转录重构助力人类前列腺癌研究进展 细胞亚群的特异性标记基因也许真的很难 明码标价之公共数据库探索 ---- ---- ---- 如果你对单细胞转录组研究感兴趣
单细胞测序技术的发展日新月异,新的分析工具也层出不穷。每个工具都有它的优势与不足,在没有权威工具和流程的单细胞生信江湖里,多掌握几种分析方法和工具,探索数据时常常会有意想不到的惊喜。 往期专题 单细胞初级8讲和高级分析8讲 单细胞分析十八般武艺1:harmony 单细胞分析十八般武艺2:LIGER 单细胞分析十八般武艺3:fastMNN 速率分析的原理 大家第一次听到RNA速率/速度 教程参考《华为云配置单细胞分析环境及报错处理》,最新的镜像下载地址在《kinesin_rstudio的日常升级二》中有链接。 往期回顾 clustree—聚类可视化利器 单细胞分析十八般武艺3:fastMNN 肺的正常上皮细胞可以分成这5群 OSCA单细胞数据分析笔记-4 Overview pipeline ---- ---- ---- 如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程 数据挖掘(GEO,TCGA,单细胞)2021第2期 生信爆款入门-2021第2期 96核心384G内存的超级服务器
单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ --- • --gzip:输出gz压缩格式的fastq文件 • --split-files:分隔为上传时的多个fastq文件 • -X:输出的fastq的记录数目,这里为了教学,输出前25000条记录,实际分析时
单细胞测序—标准分析流程(4)—GSEA与GSVA这部分代码是我综合了好几篇帖子手打的代码主要参考的是单细胞绘图之GSEA & GSVA再调用GSVA函数出问题时主要参考:GSEA和GSVA,再也不用去下载 gmt文件咯1 GSEA接着单细胞测序—标准流程代码(3)—marker 基因富集分析_差异基因,继续分析gesa_gsva_bymyself.Rrm(list=ls())options(stringsAsFactors 接下来,如本次以对照组(**CTRL**)与刺激组(**STIM**)中的CD4 Naive T细胞亚群为例,进行GSEA分析,后续重要关注哪两个分组或哪些细胞亚群,修改对应的代码即可。 提取CD4 Naive T细胞亚群的差异表达基因:使用subset提取细胞类型为CD4 Naive T的亚群。 mydata <- mydata,c(-1,-2,-4):删除不需要的列,保留关键的表达数据和分组信息。
一个用于分析高通量 DNBelab C 系列 TM 单细胞数据集的开源且灵活的流程。 bin/dnbc4tools 下载 解压直接使用 主要功能 单细胞RNA分析—- dnbc4tools rna run 使用单细胞 RNA 的 cDNA 和 oligo 文库测序数据,进行质量控制、比对和功能区域注释 单细胞ATAC分析— dnbc4tools atac run 使用单细胞 ATAC 文库测序数据,经过过滤和比对生成所有磁珠的 fragments 文件。 单细胞VDJ分析— dnbc4tools vdj run 使用单细胞 VDJ 文库测序数据和对应样本的 5' 转录组分析结果。 并生成一个新的GTF文件 校正GTF文件 GTF 文件格式要求为:对于单细胞 RNA 分析,GTF 文件至少需包含“gene”或“transcript”类型以及“exon”类型的注释,并且属性中必须包含
对干扰素的应激导致细胞类型特异性基因表达发生变化,这使得对所有数据的联合分析变得困难。 在这里,我们展示了我们的整合策略,如 Stuart 和 Butler 等人,2018 年 所述,执行整合分析以促进常见细胞类型的识别并进行比较分析。 整体分析现在我们可以对所有细胞进行一个综合分析! Naive T", `2` = "CD4 Memory T", `3` = "CD16 Mono", `4` = "B", `5` = "CD8 T", `6` = "T activated", 刺激 CD14 单核细胞后 CD14 表达降低,这可能导致监督分析框架中发生错误分类,强调了整合分析的价值。
单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析1:https://cloud.tencent.com/developer/article/2055573单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析 2:https://cloud.tencent.com/developer/article/2072069单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析3:https://cloud.tencent.com #InferCNV是一个由broad研究所开发的,利用单细胞转录组数据分析肿瘤细胞拷贝数变异(CNV)的工具。 ,immune.clusters[4]), paste0("immune." 上面分析的主要思路是前期通过对细胞类型鉴定,然后筛选出了双细胞结果,根据细胞类型进行下面的分析,这次加入了肿瘤变异之间的拷贝数分析,感觉自己的分析中也可以应用到这个内容。
简介 Paper:https://www.nature.com/articles/s41587-019-0068-4 github:https://github.com/dpeerlab/Palantir Palantir/blob/master/notebooks/Palantir_sample_notebook.ipynb Palantir是一个2019年在nature biotechnology提出的用于单细胞数据轨迹推断的 unzip Palantir-master cd Palantir-master pip install . 2)示例数据 需要准备.h5ad的单细胞数据(count表达矩阵)格式,官方提供示例数据可直接下载 Inline plotting %matplotlib inline sns.set_style('ticks') matplotlib.rcParams['figure.figsize'] = [4, pd.DataFrame(ad.obsm['X_umap'], index=ad.obs_names) # umap可视化 sc.pl.embedding(ad, basis='umap') 3、轨迹推断分析
一、安装软件 1.1 Cell Ranger 下载安装(需注册) Cell Ranger 是 10X genomics 官网提供的单细胞数据分析软件。 可以直接输入 Illumina 原始数据 BCL 或 FASTQ 格式,Cell Ranger 集成了 10 x genomics 单细胞数据分析的一整套流程模块,可以直接进行碱基识别,文库拆分、细胞拆分 、输出表达定量矩阵、降维(pca),聚类以及可视化,配合另一套 Loupe Browser 软件,可以非常简单的探索单细胞数据。 ,输入文件为 Cell Ranger分析之后生成的.cLoupe 文件即可直接使用。 r-seurat mamba create -n umi_tools -y umi_tools 二、下载参考序列 10x genomics 官网提供了人和小鼠的参考基因组可以直接用于 cellranger 分析
引言 在这篇指南[1]中,我们介绍了Seurat的一个新扩展功能,用以分析新型的空间解析数据,将重点介绍由不同成像技术生成的三个公开数据集。 FFPE人类肺组织) Akoya CODEX(用于人类淋巴结研究) 人体淋巴结:Akoya CODEX 系统 这个数据集是通过 Akoya CODEX 系统创建的,该系统能够进行多路复用的空间分辨蛋白质分析 _008_11022020_reg001_compensated.csv", type = "processor", fov = "HBM754.WKLP.262") 我们现在可以运行无监督分析来识别细胞簇
scanpy和seurat是最常用的分析的单细胞的工具,seurat基于R,而scanpy基于python。 =sc.read_10x_mtx('data/filtered_gene_bc_matrices/hg19', var_names='gene_symbols', cache=True) #读取单细胞测序文件 < 2500, :] adata = adata[adata.obs.pct_counts_mt < 5, :] sc.pp.normalize_total(adata, target_sum=1e4) sc.pp.regress_out(adata, ['total_counts', 'pct_counts_mt']) sc.pp.scale(adata, max_value=10) PCA主成分分析
在使用seurat进行单细胞分析的时候,大多数的教程都是用计数矩阵作为数据输入,但是我发现一些新手朋友对于不同数据库来源(GEO、BD)的数据或者想要去复现、借鉴一个感兴趣的文章中的下机数据时,不知道怎么把数据处理成 Seurat可以读入的计数矩阵,所以本篇文章就详细介绍单细胞数据的上游分析。 “Software Analysis”的界面提供了3种工具: Cell Ranger:比对质控需要用到的软件 Cloud Analysis:在线云分析软件,提供fastq文件即可分析 Loupe Browser eZOQJxwKgTzkXdYGuBr~J~k0KGTF0rCYBH0p6s5BB5Bff5Rx033~sXxr-YU8tCgHtx7YZOg67ov-NEMqh3y-S~CcyRV2RcQkv1nrcFMrLoC4SxoV8U4LjlzGqTPxFzSMZ2 总的来说,大家获取数据的方式有两种,根据自己的研究目标、预算以及时间来决定是使用自己的测序数据还是依赖于公共数据库中的数据,无论哪种方式,弄懂上游分析对于下游分析有益无害哦~
单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ 单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ 单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵 单细胞专题 | 6.单细胞下游分析——不同类型的数据读入 ---- 1. ###============1、准备原始分析数据 fs = list.files('. features.tsv.gz")) file.rename(paste0("GSE130001_RAW/",y[3]),file.path(folder,"matrix.mtx.gz")) }) 4. <- LabelPoints(plot = P2, points = top10_mvp, repel = TRUE) P3+P4 8.基因归一化 对所有的基因都做了scale,但是需要知道的是,其实后续的分析都是基于高变基因的
在对单细胞数据进行差异表达分析的时候,可以从全细胞和元细胞两个角度去考虑。 基于全细胞目前常见的单细胞转录组计算差异表达基因方法有DESeq2、edgeR、limma、MAST、SCDE (Single Cell Differential Expression)、Seurat 所有步骤旨在优化数据质量、减少噪声并提取重要的基因特征,为后续的分析(如聚类和差异表达分析)做准备。最终,处理后的数据存储在 adata 对象中。 使用SEACells聚合细胞,然后在元细胞水平上,执行差异表达分析。 T cells-stim', 'CD4 T cells-ctrl'])] # 执行差异表达分析 dds_meta = ov.bulk.pyDEG(test_adata.to_df().T) dds_meta.drop_duplicates_index
导读 本文将学习跨条件执行单细胞整合,以识别彼此相似的细胞。 1. 目标 跨条件对齐相同的细胞类型。 2. 挑战 对齐相似细胞类型的细胞,这样就不会因为样本、条件、模式或批次之间的差异而在后续分析中进行聚类。 3. 推荐 建议先不整合分析,再决定是否进行整合。 4. 这将使下游的结果更具可解释性(即 DE 分析、配体-受体分析)。在本课中,将介绍跨条件的样本整合,该教程改编自 Seurat v3 Guided Integration Tutorial[1]。 如果细胞按样本、条件、批次、数据集、模态进行聚类,则整合步骤可以极大地改善聚类和下游分析。 具体来说,这种整合方法期望组中至少一个单细胞子集之间存在“对应”或共享的生物状态。整合分析的步骤如下图所示: 应用的不同步骤如下: 典型相关分析 (CCA): CCA 识别条件/组之间的共享变异源。
raw.githubusercontent.com/farrellja/URD/master/URD-Install.R") library(URD) 因为没有找到提供的测试数据集,就用之前用seurat分析过的不同时期的心脏单细胞数据跑一边吧 4.Calculate Diffusion Map (未完待续) 参考:https://github.com/farrellja/URD/blob/master/Analyses/QuickStart
image.png 下面就是跟单细胞一样的流程:降维聚类 brain <- RunPCA(brain, assay = "SCT", verbose = FALSE) brain <- FindNeighbors 展示感兴趣的细胞的位置 SpatialDimPlot(brain, cells.highlight = CellsByIdentities(object = brain, idents = c(1, 2, 5, 3, 4,