介绍 文章对已知的多种细胞系混合后进行单细胞10X RNA测序,研究多克隆之间的互作模式。我们这里介绍里面的单细胞测序基因表达细胞分类操作。 不过文章选用的是已知固有SNP进行分类,基因表达分类用于和SNP分类进行比较。 & n_cls < 100+param_range) { clust_res <- 4 } else { stop('Not implemented') } 根据之前QC时的标记,选择过质控的细胞 FetchData(seuObj, vars = c('cell_quality')) seuObj <- seuObj[, which(cq$cell_quality == 'normal')] 进行细胞分类 FindClusters(seuObj, resolution = clust_res, verbose = FALSE) 原文出处 http://www.thecodesearch.com/2021/02/04/10x单细胞测序细胞分类
干细胞的分类■ 根据干细胞来源划分胚胎干细胞 (ESCs):胚胎干细胞 (ESCs) 由于其再分化的能力远高于成体干细胞,拥有分化为三个胚层的细胞的多种分化潜能。 成体干细胞 (ASCs):是体细胞或组织特异性干细胞,也是未分化的细胞,在发育后的身体各部分中存在,具备分化为体内各种细胞的潜能。 Tips: 成体干细胞通过细胞分裂增殖的方式补充死亡细胞,并能使受损的组织再生,其中包括:造血干细胞 (HSCs),生殖干细胞 (GSCs),间充质干细胞 (MSCs),神经干细胞 (NSCs),视网膜干细胞 成体多能干细胞和寡能干细胞这些细胞的分化潜能稍次于多能干细胞 ESCs。成体多能干细胞 (Multipotent stem cells):如造血干细胞可进一步分化形成体内血小板和红细胞 (图 3)。 表 1:各类干细胞培养和诱导分化常用的人源细胞因子蛋白/细胞因子造血干细胞(HSC)胚胎干细胞(ESC)神经干细胞(NSC)诱导性多能干细胞(iPSC)间充质干细胞(MSC)FGF-2√√√√√EGF√
该笔记通过从内置 CellTypist 模型或用户训练的自定义模型中检索最可能的细胞类型标签来展示 scRNA-seq 查询数据的细胞类型分类。 本笔记仅介绍主要步骤和关键参数。 免疫细胞的分类非常详细。 一些模型元信息。 您还可以打开多数投票分类器 (majority_voting = True),它会在过度聚类方法后以增加运行时间为代价细化本地子簇内的细胞身份。 请注意,在predicted_labels 中,每个查询细胞通过在给定模型的所有可能单细胞型中选择最可能的细胞来获得其推断标签。 检查细胞类型驱动基因的表达 可以根据每种细胞类型的驱动基因来检查每个模型。请注意,这些基因仅依赖于模型,例如训练数据集。
单细胞数据分析中常用的降维方法包括 PCA,以及 UMAP,tSNE。对多个细胞进行聚类分群。细胞亚群分类是 10X ScRNA-seq 数据分析的核心步骤,不同软件有不同的算法。 cells = 500, balanced = TRUE) 七、非线性降维 7.1 确定数据的分群个数 在进行分群之前,需要首先定义数据集分群个数,这里我们需要选择出主成分的数目,用于后续细胞分类 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 所以我们需要在 12 到 15 之间进行选择,(官网的建议10),我们选取 15,即前 15 个主成分用于细胞的分类。
血液细胞数据库 数据库对于数据科学家来说,就像金矿一般。一个针对特定问题的数据库,可以为研究团队提供非常大的帮助。因为我们不用再费力去搜集和存储数据了。 本算法所用数据库就来自Kaggle平台,共包括12500张增强的血液细胞图片。 ? 数据库分为4个类别,每个类别包括约3000张图片。为了便于训练,我们将图片的大小缩减为80x80x3。 ? 前处理 我们需要将血液细胞图像作为numpy数组导入,并输入到神经网络中进行训练。
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 值得一提的是,SVM通常应用于二元分类变量预测,但是经过一些改进也可以勉强对多元分类变量预测,同时基于SVM的SVR也可以预测连续变量。 训练SVM单细胞分类器 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码 训练SVM单细胞分类器 : library( summary(model) save(model,file = 'svm_output.Rdata') 可以看到,用法其实就一句话代码而已,得到的SVM单细胞分类器模型如下所示 : > summary 好一点哦,跟 LASSO回归也可以用来做单细胞分类 的效果不相上下。
我们的CNS图表复现之旅已经开始,前面4讲是; CNS图表复现01—读入csv文件的表达矩阵构建Seurat对象 CNS图表复现02—Seurat标准流程之聚类分群 CNS图表复现03—单细胞区分免疫细胞和肿瘤细胞 既然我们根据Cells were defined as non-immune if belonging to a cluster low for PTPRC (gene for CD45)的规则,把细胞区分为了免疫细胞和非免疫细胞 ,详见:我在单细胞天地的教程:是否是免疫细胞很容易区分那是否是肿瘤细胞呢? 现在我们就可以来复现文章里面的免疫细胞亚群再分类了,如下: ? 免疫细胞亚群再分类 这幅图超级容易理解,就是13431个免疫细胞,可以继续细分为不同的亚群,如上所述。 图表复现03—单细胞区分免疫细胞和肿瘤细胞 知道我是把全部的2万多个细胞的表达矩阵读入R,变成了Seurat对象,然后判断了细胞是否属于免疫细胞哈。
前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 有一个评价是这样的机器学习模型都是黑箱子,其实随机森林还好,它可以拿到具体的每个分类的重要的基因列表,有点类似于每个单细胞亚群的特异性高表达量基因 ,就可以拿到上面代码里面的两个rdata文件哈,然后得到的 rf_importances 这个数据里面有各个单细胞亚群对应的基因。 虽然随机森林已经是很完美了,但是机器学习的算法非常多,我们有必要多用几个看看效果,接下来就演示一下LASSO回归,它也可以用来做单细胞分类。 训练LASSO回归模型 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码训练LASSO回归模型: # family= 好一点哦,主要占比极低的树突细胞和血小板区分的比较好: 模型效果更好 当然了,如果是系统性学习过机器学习算法,理论上我们的这样的分类器应该是有评价指标,而不是简单的肉眼看。
如果您的组织类型不存在分类器我们的仓库中,或者数据中不包含您期望的细胞类型,那么您需要生成自己的分类器。 训练分类器的第一步是加载单细胞数据。 check_marker输出的值和plot_marker绘制的值是分类器可以选择的cell 数量的估计值。然而,它使用启发式快速找到候选细胞,并不能完全匹配标记所选择的细胞。 您选择的值将与分类器一起存储,因此在对未来的数据集进行分类时不需要再次指定它。 训练分类器 现在是训练分类器的时候了。参数应该与check_marker的参数非常接近。 查看分类基因 Garnett 分类是使用多项弹性-网络回归训练(multinomial elastic-net regression)。这意味着选择某些基因作为区分细胞类型的相关基因。 参数是分类器,您想查看哪个节点(如果您的树是分层的)—使用“root”作为顶部节点,使用父细胞类型名称作为其他节点,使用db作为您的物种。
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 而且也尝试了多种机器学习的算法,比如:不输于LASSO的SVM单细胞分类器 无论是随机森林,LASSO回归,还是支持向量机, 他们的模型都是有点抽象,不容易直观的可视化解释清楚。 训练决策树模型 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后简单的安装和加载 rpart 包,运行里面的 rpart 函数即可 -0.04970561 AAACCGTGCTTCCG 2.2197621 -0.2741145 -0.5625993 -0.04970561 我们的决策树模型就是把这2000个基因组合一下,来划分细胞的分类 然后是HLA-DRA可以区分B细胞以及树突细胞和其它细胞,其中B细胞以及树突细胞的区分靠CST3 然后T细胞里面的CD4靠NKG7区分出来,然后CD8和NK细胞靠FCER1G区分 这样的模型就非常容易解释清楚
Neşet Özel | Claude Desplan 文章链接:https://www.nature.com/articles/d41586-025-00088-1 需要牢记的是,分类学的目的(无论是细胞类型还是物种 para_01 自从近200年前细胞被确立为生命的基本单位以来,生物学家一直致力于表征和分类构成每个器官和生物体的无数不同细胞类型。 在过去的十年里,科学技术飞速发展,使得研究人员可以通过记录神经元的活动模式来对其进行功能分类,并根据其表达的基因进行分子分类。然而,目前对大多数神经系统中的细胞在分子、形态和功能描述之间仍存在脱节。 para_10 那么,细胞“类型”最终应该如何定义?需要牢记的是,分类学的目的(无论是细胞类型还是物种)并不是要解释所有可观察到的表型多样性,而是要提供一个实用且逻辑一致的参考框架。 para_12 单细胞转录组学彻底改变了科学家对细胞的理解和分类方式,特别是在能够在整个发育过程中评估大量神经元的情况下。然而,目前对人脑中细胞类型的估计相差数个数量级。
今天将分享细胞荧光显微喉癌分类完整实现版本,为了方便大家学习理解整个流程,将整个流程步骤进行了整理,并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。 HEp-2细胞,因其表达多种细胞核抗原,成为IIF实验的理想基质,尽管存在来源争议,现认为是人类乳突病毒相关宫颈腺癌细胞。 二、HEp-2_cell_classification2018任务 细胞荧光显微喉癌6分类:包含均质,斑点,核仁,着丝粒,核膜,高尔基。 3、训练结果和验证结果 4、验证集分类结果 5、测试集分类结果
血细胞数据集 数据集就像数据科学家的金矿一样,如果数据集可用于特定问题,它可以减少工程团队所需的大量工作,因为不需要开发其他东西来收集和存储数据。 数据集:https://www.kaggle.com/paultimothymooney/blood-cells 数据集结构:数据集包含12,500个血细胞增强图像。 血细胞数据集的类别 每个类包含3000个图像。该图显示了每个类的示例图像: ? 来自四个类的示例图像 我将每个图像的大小减小到(80x80x3),以便训练。
Single-Cell Classification competition 论文摘要 荧光成像的空间蛋白质组学已迅速成为研究人员必不可少的发现工具,目前仍缺乏快速且可扩展的方法来对此类图像中的单细胞蛋白质分布进行分类和嵌入 本文展示了在 Kaggle 平台上托管的人类蛋白质图谱——单细胞分类竞赛结果的设计和分析。 这个比赛开发受过有限注释训练的机器学习模型来标记荧光图像中的单细胞蛋白质模式。 这场比赛的挑战包括类别不平衡、弱标签和多标签分类,促使参赛者在他们的解决方案中应用广泛的方法。 获奖模型是第一个可以注释单细胞位置、提取单细胞特征和捕获细胞动力学的亚细胞组学工具。
数据分析情况 比对:version mm10 with the Cellranger toolkit(version 2.0.1,10XGenomics); 细胞过滤:细胞少于500detected ;后期作者也使用了Scanpy包的聚类分析; 亚群聚类:PCA+tSNE,应用Louvain Method进行基于图的聚类; 矩阵下载:GEO(GSE128423) 主要分群情况 正常小鼠骨髓基质的细胞分类 白血病小鼠骨髓基质的细胞分类: ? 临床意义 我们的基质细胞普查现在可以更清晰,更一致地定义特定基质细胞对体内平衡和异常造血功能的影响,并为血液系统疾病中的基质靶向治疗奠定基础。 往期精彩 单细胞全基因组测序—直肠癌的异质性 单细胞转录组探索急性髓系白血病 表达矩阵处理—表达质量的控制 单细胞测序构建人类正常乳腺上皮细胞图谱 单细胞实战(五) 理解cellranger count 的结果 自闭症大脑皮层细胞类型特异性的分子变化 万水千山粽是情,点开看看行不行 乳腺肿瘤微环境中具有多种免疫表型的单细胞图谱 单细胞实战(四) Cell Ranger流程概览 儿童小脑肿瘤反映出保守的胎儿转录程序
摘要本文详细介绍了使用 nnU-Net 框架对免疫组化(IHC)Ki-67 染色病理图像进行细胞分割与分类的完整流程。从数据准备、格式转换、模型训练到推理评估,涵盖了实际项目中的各个环节。 本实验使用 BCData 数据集,目标是自动识别和分类病理图像中的 Ki-67 阳性和阴性肿瘤细胞。关键词:nnU-Net、Ki-67、免疫组化、细胞分割、深度学习、病理图像分析1. 传统的 Ki-67 计数依赖病理医师人工判读,存在以下问题:工作量大、耗时长观察者间一致性较差主观因素影响判读结果因此,基于深度学习的自动化细胞分割与分类方法具有重要的临床应用价值。 数据集特征:图像格式:640×640 RGB PNG 图像标注格式:细胞中心点坐标(H5 格式)分类类别:阳性细胞(Positive):Ki-67 染色阳性,呈棕褐色阴性细胞(Negative):Ki- 总结本文详细介绍了使用 nnU-Net 框架进行 IHC Ki-67 细胞分割与分类的完整流程:数据准备:将 BCData 点标注转换为 nnU-Net 所需的分割掩码格式环境配置:设置必要的环境变量数据预处理
引言 RBC(红血细胞)分类与计数是生物研究领域中一种基础统计方法,当前市场的主流的细胞计数仪主要还是以传统算法为主,通过各种参数与预处理来提升细胞计数精度,实现重叠细胞计数与分类。 在已知的红细胞类别中有的种类红细胞非常少,相关一些常见的红细胞类别它的样本很难收集,对这种不平衡的数据集要做到每个红细胞正确分类与计数,作者采用一种全新的算法,在已知不平衡数据集中测试效果SOTA。 方法与步骤介绍 本文中作者提出了一种新的方法实现在不平衡的样本中分离重叠细胞与计数,方法主要分为以下四个主要步骤: 1.RBC颜色归一化 2.重叠细胞分离 3.细胞轮廓提取 4.细胞分类 ? 第三步重叠细胞分类,当前最稳定方法是基于距离变换与椭圆拟合算法,距离变换会发现每个重叠细胞的中心位置到边缘的距离,然后基于分水岭变换或者填充方法得到每个细胞的面积,但是这种方法只对粘连的细胞有效,对严重重叠细胞会产生错误结果 最后对每个分割后的细胞进行红细胞分类,分类的网络这里采用了EfficientNet网络模型,实验结果如下: ? 最终算法的实验结果如下: ?
第一层次降维聚类 基于图形的合并和标准化细胞的聚类根据典型的标记基因确定了强健的、离散的上皮细胞(EpCAM+、KRT8+和KRT18+)、成纤维细胞(COL1A1+)、内皮细胞(CLDN5+)、T细胞 ,并在所有四个数据集中鉴定了CD1C+树突状细胞,肿瘤相关巨噬细胞(C1Q+ tam, MRC1+),单核细胞(S100A8+)和粒细胞簇 D8+和CD4+T细胞的不同状态塑造了结直肠癌生态系统 CRC 对T细胞的分析确定了11个CD4+T细胞和10个CD8+T细胞簇,每个簇由来自多个样本的细胞填充,这意味着在CRC中存在共享状态 还鉴定了自然杀伤细胞(NK细胞)和天然淋巴样细胞(ILC)簇 通过对单细胞转录数据分析发现 CMS组中T细胞的浓缩 免疫性肿瘤(CMS1)和间充质细胞亚型(CMS4)表现出较强的T细胞浸润,而CMS2和CMS3则表现出较低的T细胞浓集,这与以往的数据一致。 CMS1主要表达于NK细胞和CD8+TRM细胞。
很早之前我们就总结过虽然虽然M1和M2的分类深入人心,但是在单细胞水平里面正确的做法可能是放弃M1和M2,详见:M1和M2的巨噬细胞差异就在CD86和CD163吗,很多单细胞文章都表明了巨噬细胞的M1和 能泾渭分明的巨噬细胞分类 2022的一篇CELL文章:《Tissue-resident FOLR2+ macrophages associate with CD8+ T cell infiltration in human breast cancer》就提到了里面的巨噬细胞可以分类成为2个: (1) TREM2+ macrophages expressing triggering receptor expressed 教育和科普:将复杂的概念简化为二分类问题对于教育和科普也很有帮助。它们更容易向学生和公众传达,促使更广泛的人理解和参与。 ,但是主要是TREM2联合SPP1,去和FOLR2基因的排他性,这样的二分类模式。
本文将详细介绍如何使用DINOv3进行目标检测任务,以血细胞分类为例,展示从数据准备到模型训练再到推理部署的完整流程。1. 概述目标:训练一个模型,可以输入一张血细胞图片,认出血细胞中的血小板、红细胞、白细胞并获得它们的位置。 完整训练脚本训练脚本 bccd_rf_train.py 的主要流程:参数解析和环境设置数据路径验证DINOv3模型加载特征提取(训练集和验证集)数据平衡处理随机森林训练模型评估模型和配置保存"""血细胞分类训练脚本 = 'cpu'def print_header(args: argparse.Namespace): """打印程序标题和配置信息""" print("="*80) print("血细胞分类训练 通过血细胞分类的实际案例展示了从数据准备到模型部署的完整流程。