介绍 文章对已知的多种细胞系混合后进行单细胞10X RNA测序,研究多克隆之间的互作模式。我们这里介绍里面的单细胞测序基因表达细胞分类操作。 不过文章选用的是已知固有SNP进行分类,基因表达分类用于和SNP分类进行比较。 %e6%b5%8b%e5%ba%8fqc%e5%b7%b2%e7%9f%a5%e6%a0%b7%e6%9c%acsnp/ 根据测序的细胞系个数设定参数, n_pcs是主成分分析时主成分个数, clust_res FetchData(seuObj, vars = c('cell_quality')) seuObj <- seuObj[, which(cq$cell_quality == 'normal')] 进行细胞分类 FindClusters(seuObj, resolution = clust_res, verbose = FALSE) 原文出处 http://www.thecodesearch.com/2021/02/04/10x单细胞测序细胞分类
干细胞的分类■ 根据干细胞来源划分胚胎干细胞 (ESCs):胚胎干细胞 (ESCs) 由于其再分化的能力远高于成体干细胞,拥有分化为三个胚层的细胞的多种分化潜能。 成体干细胞 (ASCs):是体细胞或组织特异性干细胞,也是未分化的细胞,在发育后的身体各部分中存在,具备分化为体内各种细胞的潜能。 Tips: 成体干细胞通过细胞分裂增殖的方式补充死亡细胞,并能使受损的组织再生,其中包括:造血干细胞 (HSCs),生殖干细胞 (GSCs),间充质干细胞 (MSCs),神经干细胞 (NSCs),视网膜干细胞 诱导多能干细胞 (iPSCs) 又称人工诱导多能干细胞,是一种由哺乳动物成体细胞经转入转录因子,如 SOKM (Sox2、Oct4、Klf4 和 c-Myc) 组合使体细胞重新编程回到多能干细胞状态[5 表 1:各类干细胞培养和诱导分化常用的人源细胞因子蛋白/细胞因子造血干细胞(HSC)胚胎干细胞(ESC)神经干细胞(NSC)诱导性多能干细胞(iPSC)间充质干细胞(MSC)FGF-2√√√√√EGF√
该笔记通过从内置 CellTypist 模型或用户训练的自定义模型中检索最可能的细胞类型标签来展示 scRNA-seq 查询数据的细胞类型分类。 本笔记仅介绍主要步骤和关键参数。 免疫细胞的分类非常详细。 一些模型元信息。 您还可以打开多数投票分类器 (majority_voting = True),它会在过度聚类方法后以增加运行时间为代价细化本地子簇内的细胞身份。 请注意,在predicted_labels 中,每个查询细胞通过在给定模型的所有可能单细胞型中选择最可能的细胞来获得其推断标签。 检查细胞类型驱动基因的表达 可以根据每种细胞类型的驱动基因来检查每个模型。请注意,这些基因仅依赖于模型,例如训练数据集。
单细胞数据分析中常用的降维方法包括 PCA,以及 UMAP,tSNE。对多个细胞进行聚类分群。细胞亚群分类是 10X ScRNA-seq 数据分析的核心步骤,不同软件有不同的算法。 cells = 500, balanced = TRUE) 七、非线性降维 7.1 确定数据的分群个数 在进行分群之前,需要首先定义数据集分群个数,这里我们需要选择出主成分的数目,用于后续细胞分类 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 所以我们需要在 12 到 15 之间进行选择,(官网的建议10),我们选取 15,即前 15 个主成分用于细胞的分类。
血液细胞数据库 数据库对于数据科学家来说,就像金矿一般。一个针对特定问题的数据库,可以为研究团队提供非常大的帮助。因为我们不用再费力去搜集和存储数据了。 本算法所用数据库就来自Kaggle平台,共包括12500张增强的血液细胞图片。 ? 数据库分为4个类别,每个类别包括约3000张图片。为了便于训练,我们将图片的大小缩减为80x80x3。 ? 前处理 我们需要将血液细胞图像作为numpy数组导入,并输入到神经网络中进行训练。 model() nn.fit_generator(dataset, steps_per_epoch = None, epochs = 30, verbose = 1) nn.save('Model.h5' \ ModelData/model_data // Model.h5 is the downloaded model after training, last
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 值得一提的是,SVM通常应用于二元分类变量预测,但是经过一些改进也可以勉强对多元分类变量预测,同时基于SVM的SVR也可以预测连续变量。 训练SVM单细胞分类器 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码 训练SVM单细胞分类器 : library( summary(model) save(model,file = 'svm_output.Rdata') 可以看到,用法其实就一句话代码而已,得到的SVM单细胞分类器模型如下所示 : > summary 好一点哦,跟 LASSO回归也可以用来做单细胞分类 的效果不相上下。
,详见:我在单细胞天地的教程:是否是免疫细胞很容易区分那是否是肿瘤细胞呢? 现在我们就可以来复现文章里面的免疫细胞亚群再分类了,如下: ? 免疫细胞亚群再分类 这幅图超级容易理解,就是13431个免疫细胞,可以继续细分为不同的亚群,如上所述。 图表复现03—单细胞区分免疫细胞和肿瘤细胞 知道我是把全部的2万多个细胞的表达矩阵读入R,变成了Seurat对象,然后判断了细胞是否属于免疫细胞哈。 singleR))) Var1 Freq 1 Fibroblasts 91 2 DC 170 3 NK_cell 496 4 CMP 551 5 Unknown", "T-cells", "pDCs", "B-cells-M", "MF-Monocytes") # free_annotation <- c("0","1", "2", "3", "4", "5"
1 拟时序分析拟时序分析是为了探索自己感兴趣的几种细胞之间的发育关系,一般不是用全部类型的细胞来做的。 "T_cells" "Monocyte" "Endothelial_cells" [5] "Smooth_muscle_cells" "NK_cell" 在做拟时序分析的时候,因为是采用差异基因进行排序的,所以要求是两类细胞或者两类以上(要选择的细胞亲缘关系要近一点,有分化的可能性,完全不挨着的细胞不太行)。 这个细胞发育轨迹图,plot_ordering_genes画的图纵坐标是基因表达量的变异性,,横坐标是每个基因在所有细胞种的平均表达量。 sc_cds <- orderCells(sc_cds)#细胞排序,拟时序分析假设细胞状态的变化是连续的,通过排序可以模拟细胞从一个状态逐渐发展到另一个状态的过程,这样才方便推算分化过程。
行内样式 <body>
前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 有一个评价是这样的机器学习模型都是黑箱子,其实随机森林还好,它可以拿到具体的每个分类的重要的基因列表,有点类似于每个单细胞亚群的特异性高表达量基因 ,就可以拿到上面代码里面的两个rdata文件哈,然后得到的 rf_importances 这个数据里面有各个单细胞亚群对应的基因。 虽然随机森林已经是很完美了,但是机器学习的算法非常多,我们有必要多用几个看看效果,接下来就演示一下LASSO回归,它也可以用来做单细胞分类。 训练LASSO回归模型 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码训练LASSO回归模型: # family= 好一点哦,主要占比极低的树突细胞和血小板区分的比较好: 模型效果更好 当然了,如果是系统性学习过机器学习算法,理论上我们的这样的分类器应该是有评价指标,而不是简单的肉眼看。
如果您的组织类型不存在分类器我们的仓库中,或者数据中不包含您期望的细胞类型,那么您需要生成自己的分类器。 训练分类器的第一步是加载单细胞数据。 check_marker输出的值和plot_marker绘制的值是分类器可以选择的cell 数量的估计值。然而,它使用启发式快速找到候选细胞,并不能完全匹配标记所选择的细胞。 您选择的值将与分类器一起存储,因此在对未来的数据集进行分类时不需要再次指定它。 训练分类器 现在是训练分类器的时候了。参数应该与check_marker的参数非常接近。 查看分类基因 Garnett 分类是使用多项弹性-网络回归训练(multinomial elastic-net regression)。这意味着选择某些基因作为区分细胞类型的相关基因。 参数是分类器,您想查看哪个节点(如果您的树是分层的)—使用“root”作为顶部节点,使用父细胞类型名称作为其他节点,使用db作为您的物种。
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 而且也尝试了多种机器学习的算法,比如:不输于LASSO的SVM单细胞分类器 无论是随机森林,LASSO回归,还是支持向量机, 他们的模型都是有点抽象,不容易直观的可视化解释清楚。 -0.04970561 AAACCGTGCTTCCG 2.2197621 -0.2741145 -0.5625993 -0.04970561 我们的决策树模型就是把这2000个基因组合一下,来划分细胞的分类 ,但是只需要5个基因就足以区分它们了 : 5个基因就足以区分它们了 在测试集看模型效果 同样的,训练好的模型,也需要在另外一个数据集看看效果: test_outputs = predict(fit, ,以及CD4和CD8的混入,这个目前来说是无解的: CD8和NK细胞的混入 我们可以简单的可视化前面的决策树模型的5个基因: library(Seurat) sce=CreateSeuratObject
para_01 自从近200年前细胞被确立为生命的基本单位以来,生物学家一直致力于表征和分类构成每个器官和生物体的无数不同细胞类型。 在过去的十年里,科学技术飞速发展,使得研究人员可以通过记录神经元的活动模式来对其进行功能分类,并根据其表达的基因进行分子分类。然而,目前对大多数神经系统中的细胞在分子、形态和功能描述之间仍存在脱节。 果蝇视觉系统中的T4和T5神经元的八个亚型很好地说明了这两个潜在的问题。这些亚型在发育早期就已经基因指定,并且在成虫果蝇中对不同方向的运动选择性地做出反应。 para_10 那么,细胞“类型”最终应该如何定义?需要牢记的是,分类学的目的(无论是细胞类型还是物种)并不是要解释所有可观察到的表型多样性,而是要提供一个实用且逻辑一致的参考框架。 para_12 单细胞转录组学彻底改变了科学家对细胞的理解和分类方式,特别是在能够在整个发育过程中评估大量神经元的情况下。然而,目前对人脑中细胞类型的估计相差数个数量级。
分类散点图 显示分类变量级别中某些定量变量的值的一种简单方法使用 stripplot(),它会将分散图概括为其中一个变量是分类的: ? 在条纹图中,散点图通常将重叠。这使得很难看到数据的完整分布。 当然也可以传入 hue 参数添加多个嵌套的分类变量。高于分类轴上的颜色和位置时冗余的,现在每个都提供有两个变量之一的信息: ? 一般来说,Seaborn 分类绘图功能试图从数据中推断类别的顺序。 分类内的观测分布 分类散点图固然简单实用,但在某些特定的的情况下,他们可以提供的值的分布信息会变得及其有限(并不明晰)。 绘制多层面板分类图 正如我们上面提到的,有两种方法可以在 Seaborn 中绘制分类图。 由于分类图的广义 API,它们应该很容易应用于其他更复杂的上下文。 例如,它们可以轻松地与 PairGrid 结合,以显示多个不同变量之间的分类关系: ?
今天将分享细胞荧光显微喉癌分类完整实现版本,为了方便大家学习理解整个流程,将整个流程步骤进行了整理,并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。 HEp-2细胞,因其表达多种细胞核抗原,成为IIF实验的理想基质,尽管存在来源争议,现认为是人类乳突病毒相关宫颈腺癌细胞。 二、HEp-2_cell_classification2018任务 细胞荧光显微喉癌6分类:包含均质,斑点,核仁,着丝粒,核膜,高尔基。 数据下载: https://www.heywhale.com/mw/dataset/5ec3c6883241a100378d5d4a 四、技术路线 1、将图像缩放到固定大小96x96,然后采用均值为0, 3、训练结果和验证结果 4、验证集分类结果 5、测试集分类结果
单细胞入门必读5篇cns综述,希望对大家有帮助! 综述-单细胞转录组学分析细胞通讯 单细胞多组学在解析癌细胞可塑性和肿瘤异质性中的应用 综述:高维单细胞RNA测序数据分析工具(下) 综述:高维单细胞RNA测序数据分析工具(中) 综述:高维单细胞RNA测序数据分析工具 (上) 单细胞RNA-seq数据分析最佳实践(下) 单细胞RNA-seq数据分析最佳实践(中) 单细胞RNA-seq数据分析最佳实践(上) 回顾:单细胞入门-读一篇scRNA-seq综述 单细胞测序技术将彻底改变整个生物科学 一篇文章带你走进单细胞的天地 单细胞转录组分析综述 单细胞转录组方法篇——下 Single cell RNA-seq 方法篇-上 如果不自己亲自研读综述 你指望去哪里获得单细胞转录组技术以及数据分析的基础知识
故事中没有月亮、云朵和晚风,却有关于数据挖掘中的分类技术的启示;虽然,现在不再分福利房了,但此故事既回顾历史,也解释了分类技术若干要点,有参考价值。 5、 第一个训练结果,删除无用的列--属性选择。 5.1 分房委员会看出了冗余属性问题 分房委员会对这个样板初稿,提出了意见。 精简属性能减少无关属性干扰,既节省时间,又保证分类精度。 6、第二个训练结果,训练一个分房(分类)公式。 而Fi为各条件之量化值,例如,曾经有一个学校的真实的分数:工龄一年算一分,副教授算3分,教授算5分,等等; 注意,复杂的分类规则不一定能用简单的公式表达,但总可用一组形如“If….then….”的规则来表示 8、应用于大规模的分类 公示通过了测试的分房公式,用其计算全厂申请住房者的分类标号(等价于住房面积数),公示。 9、商品房时代的购房与分类有关吗?
显然,实际处理的分类任务大多数不可能仅使用一条直线将其区分开的,这也是为什么说感知机不会应用到实际的问题中。 单层感知机是一个很弱的模型,只能处理线性可分的分类问题,但是堆叠多个单层感知机的多层感知机能够处理非线性可分的分类问题。多层感知机就是所谓的神经网络。
前言 众所周知,YOLOv5是一款优秀的目标检测模型,但实际上,它也支持图像分类。在6.1版本中,就暗留了classify这个参数,可以在做检测的同时进行分类。 官方仓库地址:https://github.com/ultralytics/yolov5/releases 更新概览 在几天前刚新出的6.2版本中,直接将分类功能单独剥离开来,使其能够直接训练图像分类数据集 先看看官网公示的更新说明: 分类功能 新增分类功能,并提供各模型在ImageNet上训练过的预训练模型 ClearML日志记录 与开源实验跟踪器ClearML集成。 分类模型效果 下图是官方贴出来的各分类模型对比图,在可以看到在相同的数据集上,YOLOv5x-cls模型取得了最佳的准确率。下列这些模型官方均提供预训练权重。 模型会从高到低输出前5个类别的概率值。 代码备份 本次实验代码包含YOLOv5-6.2版本提供的所有预训练权重和mnist数据集。
血细胞数据集 数据集就像数据科学家的金矿一样,如果数据集可用于特定问题,它可以减少工程团队所需的大量工作,因为不需要开发其他东西来收集和存储数据。 数据集:https://www.kaggle.com/paultimothymooney/blood-cells 数据集结构:数据集包含12,500个血细胞增强图像。 血细胞数据集的类别 每个类包含3000个图像。该图显示了每个类的示例图像: ? 来自四个类的示例图像 我将每个图像的大小减小到(80x80x3),以便训练。 : nn= model() nn.fit_generator(dataset,steps_per_epoch= None,epochs= 30,verbose= 1) nn.save('Model.h5' \ ModelData/model_data // Model.h5is the downloaded model after training, last