介绍 文章对已知的多种细胞系混合后进行单细胞10X RNA测序,研究多克隆之间的互作模式。我们这里介绍里面的单细胞测序基因表达细胞分类操作。 不过文章选用的是已知固有SNP进行分类,基因表达分类用于和SNP分类进行比较。 %e6%b5%8b%e5%ba%8fqc%e5%b7%b2%e7%9f%a5%e6%a0%b7%e6%9c%acsnp/ 根据测序的细胞系个数设定参数, n_pcs是主成分分析时主成分个数, clust_res FetchData(seuObj, vars = c('cell_quality')) seuObj <- seuObj[, which(cq$cell_quality == 'normal')] 进行细胞分类 FindClusters(seuObj, resolution = clust_res, verbose = FALSE) 原文出处 http://www.thecodesearch.com/2021/02/04/10x单细胞测序细胞分类
干细胞的分类■ 根据干细胞来源划分胚胎干细胞 (ESCs):胚胎干细胞 (ESCs) 由于其再分化的能力远高于成体干细胞,拥有分化为三个胚层的细胞的多种分化潜能。 成体干细胞 (ASCs):是体细胞或组织特异性干细胞,也是未分化的细胞,在发育后的身体各部分中存在,具备分化为体内各种细胞的潜能。 Tips: 成体干细胞通过细胞分裂增殖的方式补充死亡细胞,并能使受损的组织再生,其中包括:造血干细胞 (HSCs),生殖干细胞 (GSCs),间充质干细胞 (MSCs),神经干细胞 (NSCs),视网膜干细胞 Humana, Cham. https://doi.org/10.1007/978-3-030-78101-9_24. Chan, A W et al. Science (New York, N.Y.) vol. 287,5451 (2000): 317-9. doi:10.1126/science.287.5451.3175.
该笔记通过从内置 CellTypist 模型或用户训练的自定义模型中检索最可能的细胞类型标签来展示 scRNA-seq 查询数据的细胞类型分类。 本笔记仅介绍主要步骤和关键参数。 免疫细胞的分类非常详细。 一些模型元信息。 您还可以打开多数投票分类器 (majority_voting = True),它会在过度聚类方法后以增加运行时间为代价细化本地子簇内的细胞身份。 请注意,在predicted_labels 中,每个查询细胞通过在给定模型的所有可能单细胞型中选择最可能的细胞来获得其推断标签。 检查细胞类型驱动基因的表达 可以根据每种细胞类型的驱动基因来检查每个模型。请注意,这些基因仅依赖于模型,例如训练数据集。
单细胞数据分析中常用的降维方法包括 PCA,以及 UMAP,tSNE。对多个细胞进行聚类分群。细胞亚群分类是 10X ScRNA-seq 数据分析的核心步骤,不同软件有不同的算法。 cells = 500, balanced = TRUE) 七、非线性降维 7.1 确定数据的分群个数 在进行分群之前,需要首先定义数据集分群个数,这里我们需要选择出主成分的数目,用于后续细胞分类 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 所以我们需要在 12 到 15 之间进行选择,(官网的建议10),我们选取 15,即前 15 个主成分用于细胞的分类。
单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ 单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ 单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵 单细胞专题 | 6.单细胞下游分析——不同类型的数据读入 单细胞专题 | 7.单细胞下游分析——常规分析流程案例一 单细胞专题 | 8.单细胞类型注释之SingleR包详解 1.细胞类型的marker基因 单细胞人工注释依赖于marker gene的调查,简单来说,就是收集各种细胞类型的标志物 ,根据标志物在不同细胞亚群中的表达来判断细胞类型。 其他的大部分类群都是Bladder Cancer 细胞。但是上次使用singleR注释时,第12个亚群是NK细胞,查看一下CD45的表达。
给定一个包含红色、白色和蓝色,一共 n 个元素的数组,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。
血液细胞数据库 数据库对于数据科学家来说,就像金矿一般。一个针对特定问题的数据库,可以为研究团队提供非常大的帮助。因为我们不用再费力去搜集和存储数据了。 本算法所用数据库就来自Kaggle平台,共包括12500张增强的血液细胞图片。 ? 数据库分为4个类别,每个类别包括约3000张图片。为了便于训练,我们将图片的大小缩减为80x80x3。 ? 前处理 我们需要将血液细胞图像作为numpy数组导入,并输入到神经网络中进行训练。
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 训练SVM单细胞分类器 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码 训练SVM单细胞分类器 : library( summary(model) save(model,file = 'svm_output.Rdata') 可以看到,用法其实就一句话代码而已,得到的SVM单细胞分类器模型如下所示 : > summary 共有9 种核函数,常用的为其中的前四个:linear,Polynomial,RBF,Sigmoid 其中 RBF 适用于因变量比较少,而 linear适用于因变量非常多,也就是本例子里面的基因非常多,所以我们现在 好一点哦,跟 LASSO回归也可以用来做单细胞分类 的效果不相上下。
,详见:我在单细胞天地的教程:是否是免疫细胞很容易区分那是否是肿瘤细胞呢? 现在我们就可以来复现文章里面的免疫细胞亚群再分类了,如下: ? 免疫细胞亚群再分类 这幅图超级容易理解,就是13431个免疫细胞,可以继续细分为不同的亚群,如上所述。 图表复现03—单细胞区分免疫细胞和肿瘤细胞 知道我是把全部的2万多个细胞的表达矩阵读入R,变成了Seurat对象,然后判断了细胞是否属于免疫细胞哈。 496 4 CMP 551 5 Neutrophils 645 6 B_cell 1957 7 Macrophage 2104 8 Monocyte 2803 9 ", "B-cells-M", "MF-Monocytes") # free_annotation <- c("0","1", "2", "3", "4", "5", "6", "7", "8", "9"
单细胞数据复现-肺癌文章代码复现1https://cloud.tencent.com/developer/article/1992648单细胞数据复现-肺癌文章代码复现2https://cloud.tencent.com /developer/article/1995619单细胞数据复现-肺癌文章代码复现3https://cloud.tencent.com/developer/article/1996043单细胞数据复现 /developer/article/2008487单细胞数据复现-肺癌文章代码复现6https://cloud.tencent.com/developer/article/2008704单细胞数据复现 /results", width = 10, height = 9, units = "cm")CXCL9 <- read_excel("Quantification_CXCL9.xlsx")CXCL9 因此对上面的一系列的流程结果进行总结,可以发现是首先流程性的分析,然后开始对注释后的亚群进行了精细的分析,将不同的细胞类群叶放到脚本里面进行分析。
clust <- igraph::cluster_walktrap(g)$membership table(clust) #clust # 1 2 3 4 5 6 7 8 9 18 19 20 21 22 #523 302 125 45 172 573 249 439 293 95 772 142 38 18 62 38 30 16 15 9 .50 <- igraph::cluster_walktrap(g.50)$membership table(clust.50) # 1 2 3 4 5 6 7 8 9 Rand index指标 这个指标常用于检测分类模型的预测结果。 例如我有2个苹果,2个香蕉,2个芒果;根据模型对这6个水果的分类,使用Rand index指标表示预测结果与真实结果的相似性; 简单来说,首先A=6个水果所有两两组合的可能性,即(6x5)/(2x1)=
例如点击某个分类,博客将跳转到该分类下全部文章列表页面。这些数据的展示都需要开发对应的接口,以便前端调用获取数据。 分类列表、标签列表实现比较简单,我们这里给出接口的设计规范,大家可以使用前几篇教程中学到的知识点轻松实现(具体实现可参考 GtiHub 上的源代码)。 分类列表接口:/categories/ 标签列表接口:/tags/ 归档日期列表的接口实现稍微复杂一点,因为我们需要从已有文章中归纳文章发表日期。 现在,侧边栏所需要的数据接口就开发完成了,接下来实现返回某一分类、标签或者归档日期下的文章列表接口。 在 使用视图集简化代码 我们开发了获取全部文章的接口。 事实上,分类、标签或者归档日期文章列表的 API,本质上还是返回一个文章列表资源,只不过比首页 API 返回的文章列表资源多了个“过滤”,只过滤出了指定的部分文章而已。
前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 有一个评价是这样的机器学习模型都是黑箱子,其实随机森林还好,它可以拿到具体的每个分类的重要的基因列表,有点类似于每个单细胞亚群的特异性高表达量基因 ,就可以拿到上面代码里面的两个rdata文件哈,然后得到的 rf_importances 这个数据里面有各个单细胞亚群对应的基因。 虽然随机森林已经是很完美了,但是机器学习的算法非常多,我们有必要多用几个看看效果,接下来就演示一下LASSO回归,它也可以用来做单细胞分类。 训练LASSO回归模型 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码训练LASSO回归模型: # family= 好一点哦,主要占比极低的树突细胞和血小板区分的比较好: 模型效果更好 当然了,如果是系统性学习过机器学习算法,理论上我们的这样的分类器应该是有评价指标,而不是简单的肉眼看。
介绍 作用:分类 原理:构建一个二叉树,逐级条件判断筛选 基本思想 假如有小明,小红和小张三个人,我们知道他们的身高体重,要通过身高体重来判断是哪个人,决策树算法会构建一个二叉树,逐级判断,如下
如果您的组织类型不存在分类器我们的仓库中,或者数据中不包含您期望的细胞类型,那么您需要生成自己的分类器。 训练分类器的第一步是加载单细胞数据。 check_marker输出的值和plot_marker绘制的值是分类器可以选择的cell 数量的估计值。然而,它使用启发式快速找到候选细胞,并不能完全匹配标记所选择的细胞。 您选择的值将与分类器一起存储,因此在对未来的数据集进行分类时不需要再次指定它。 训练分类器 现在是训练分类器的时候了。参数应该与check_marker的参数非常接近。 查看分类基因 Garnett 分类是使用多项弹性-网络回归训练(multinomial elastic-net regression)。这意味着选择某些基因作为区分细胞类型的相关基因。 参数是分类器,您想查看哪个节点(如果您的树是分层的)—使用“root”作为顶部节点,使用父细胞类型名称作为其他节点,使用db作为您的物种。
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 而且也尝试了多种机器学习的算法,比如:不输于LASSO的SVM单细胞分类器 无论是随机森林,LASSO回归,还是支持向量机, 他们的模型都是有点抽象,不容易直观的可视化解释清楚。 训练决策树模型 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后简单的安装和加载 rpart 包,运行里面的 rpart 函数即可 -0.04970561 AAACCGTGCTTCCG 2.2197621 -0.2741145 -0.5625993 -0.04970561 我们的决策树模型就是把这2000个基因组合一下,来划分细胞的分类 然后是HLA-DRA可以区分B细胞以及树突细胞和其它细胞,其中B细胞以及树突细胞的区分靠CST3 然后T细胞里面的CD4靠NKG7区分出来,然后CD8和NK细胞靠FCER1G区分 这样的模型就非常容易解释清楚
Doublets及其形成的原因 单细胞测序期望每个barcode标签下只有一个真实的细胞,但是实际数据中会有两个或多个细胞共用一个barcode的情况,业内称之为doublets或multiplets T细胞和B细胞的marker基因。 需要注意的是DoubletFinder对相同细胞类型构成的doublets不敏感,因为这些细胞在表达特征上与真实的单细胞没有明显的差异。 分析流程 ? nExp = nExp_poi.adj, reuse.pANN = F, sct = T) ## 结果展示,分类结果在 对比《单细胞分析十八般武艺8:Garnett》中使用Gernett分类器鉴定的结果(下图),我发现一个有意思的现象:DoubletFinder识别的doublets与Garnett定义为Unknown的类型有一些是重合的
seurat_ref, group.by="celltype") plot3 <- FeaturePlot(seurat_ref, c("SOX2","DCX","FOXG1","EMX1","DLX2","LHX9" 基于细胞簇的转录组相似性分析 可以将查询数据集中每个细胞群体的转录组特征与参考数据集中不同细胞类型的转录组特征进行比较。 通过这种比较,查询数据中的细胞簇可以被归类为参考数据集中转录组特征最相似的细胞类型。 首先,需要分别计算参考数据集中每种注释细胞类型和查询数据集中每个细胞簇的平均转录组特征。 比如查询数据里的不少细胞簇,像被标注为“Dorsal telen. IP”的那个细胞簇,就和参考数据中的“Cortical IP”细胞类型,有着最高的相似度。
Neşet Özel | Claude Desplan 文章链接:https://www.nature.com/articles/d41586-025-00088-1 需要牢记的是,分类学的目的(无论是细胞类型还是物种 para_01 自从近200年前细胞被确立为生命的基本单位以来,生物学家一直致力于表征和分类构成每个器官和生物体的无数不同细胞类型。 在过去的十年里,科学技术飞速发展,使得研究人员可以通过记录神经元的活动模式来对其进行功能分类,并根据其表达的基因进行分子分类。然而,目前对大多数神经系统中的细胞在分子、形态和功能描述之间仍存在脱节。 para_10 那么,细胞“类型”最终应该如何定义?需要牢记的是,分类学的目的(无论是细胞类型还是物种)并不是要解释所有可观察到的表型多样性,而是要提供一个实用且逻辑一致的参考框架。 para_12 单细胞转录组学彻底改变了科学家对细胞的理解和分类方式,特别是在能够在整个发育过程中评估大量神经元的情况下。然而,目前对人脑中细胞类型的估计相差数个数量级。
数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):17509 分类类别数:9 类别名称:["chineseapple","lantana","negatives 图片数:1009 siam_weed 图片数:1074 snake_weed 图片数:1016 重要说明:暂无 特别声明:本数据集不对训练的模型或者权重文件精度作任何保证,数据集只提供准确且合理分类存放