介绍 文章对已知的多种细胞系混合后进行单细胞10X RNA测序,研究多克隆之间的互作模式。我们这里介绍里面的单细胞测序基因表达细胞分类操作。 不过文章选用的是已知固有SNP进行分类,基因表达分类用于和SNP分类进行比较。 & n_cls < 100+param_range) { clust_res <- 4 } else { stop('Not implemented') } 根据之前QC时的标记,选择过质控的细胞 FetchData(seuObj, vars = c('cell_quality')) seuObj <- seuObj[, which(cq$cell_quality == 'normal')] 进行细胞分类 FindClusters(seuObj, resolution = clust_res, verbose = FALSE) 原文出处 http://www.thecodesearch.com/2021/02/04/10x单细胞测序细胞分类
干细胞的分类■ 根据干细胞来源划分胚胎干细胞 (ESCs):胚胎干细胞 (ESCs) 由于其再分化的能力远高于成体干细胞,拥有分化为三个胚层的细胞的多种分化潜能。 成体多能干细胞和寡能干细胞这些细胞的分化潜能稍次于多能干细胞 ESCs。成体多能干细胞 (Multipotent stem cells):如造血干细胞可进一步分化形成体内血小板和红细胞 (图 3)。 3),它们被广泛用于促进血细胞发育和分化。 血小板成素及其类似物与多种细胞因子结合,包括干细胞因子和白细胞介素 (例如 IL-3、IL-6、IL-11),在它们的共同作用下促进造血干细胞产生成熟巨核细胞群,进而形成血小板,同时无需补充血清或与饲养细胞共培养 √√√√TGF-β1√√√TGF-β3√BMP-4√√√Activin A√IL-3√√SCF√Flt3-ligand√GM-CSF√G-CSF√M-CSF√LIF√√TPO√VEGF165√FGF-8b
本文将详细介绍如何使用DINOv3进行目标检测任务,以血细胞分类为例,展示从数据准备到模型训练再到推理部署的完整流程。1. 概述目标:训练一个模型,可以输入一张血细胞图片,认出血细胞中的血小板、红细胞、白细胞并获得它们的位置。 """血细胞分类训练脚本 - 使用DINOv3特征 + 随机森林分类器这种方法更简单直接,通常在小数据集上效果更好DINOv3 使用 patch_size=16,**要求输入图像尺寸必须是 16 的倍数 5.2 可视化结果检测结果的可视化包括:不同颜色表示不同类别(红色-血小板,绿色-红细胞,蓝色-白细胞)边界框绘制置信度分数显示真实标签对比(评估模式)结语本文详细介绍了基于DINOv3的目标检测方法, 通过血细胞分类的实际案例展示了从数据准备到模型部署的完整流程。
该笔记通过从内置 CellTypist 模型或用户训练的自定义模型中检索最可能的细胞类型标签来展示 scRNA-seq 查询数据的细胞类型分类。 本笔记仅介绍主要步骤和关键参数。 免疫细胞的分类非常详细。 一些模型元信息。 您还可以打开多数投票分类器 (majority_voting = True),它会在过度聚类方法后以增加运行时间为代价细化本地子簇内的细胞身份。 pDC细胞 mast_cell_weights = weights[model.cell_types == 'pDC'] top_3_genes = model.features[mast_cell_weights.argpartition adata_2000, top_3_genes, groupby = 'cell_type', rotation = 90) 感觉还不错,比R语言里面的singleR的可能准确一些,注释免疫细胞时可以考虑用一下
单细胞数据分析中常用的降维方法包括 PCA,以及 UMAP,tSNE。对多个细胞进行聚类分群。细胞亚群分类是 10X ScRNA-seq 数据分析的核心步骤,不同软件有不同的算法。 而后,只要 2~3 个变量(命名为 PC1,PC2,PC3)就可以代表原来几万个基因含有的大部分信息。那么细胞之间表达量差异,就体现在 PC1、PC2 这些变量数值上的差异。 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 所以我们需要在 12 到 15 之间进行选择,(官网的建议10),我们选取 15,即前 15 个主成分用于细胞的分类。
本系列持续更新Seurat单细胞分析教程,欢迎关注! 我们在这里选择了 10 个,但鼓励用户考虑以下事项: 树突状细胞和 NK 与 PC 12 和 13 密切相关的基因定义了罕见的免疫子集(即 MZB1 是浆细胞样 DC 的标记)。 我们发现,将此参数设置在 0.4-1.2 之间通常会为大约 3K 细胞的单细胞数据集带来良好的结果。对于较大的数据集,最佳分辨率通常会增加。可以使用 Idents() 函数找到簇。 AAACATACAACCAC-1 AAACATTGAGCTAC-1 AAACATTGATCAGC-1 AAACCGTGCTTCCG-1 ## 2 3 2 1 ## AAACCGTGTATGCG-1 ## 6 ## Levels: 0 1 2 3 4 5 6 7 8 未完待续,持续更新
,同一个颜色的点被认为时一类细胞,那末到底是什么细胞呢,可以通过marker基因进行分析。 3可视化3.1 热图> library(ggplot2)> DoHeatmap(seu.obj, features = g) + NoLegend()++ scale_fill_gradientn( = ref$label.main, clusters = scRNA@active.ident)pred.scRNA$pruned.labels #看一下分类 levels(scRNA)library(Seurat) #"RenameIdents"是Seurat里面的scRNA <- RenameIdents(scRNA,new.cluster.ids)p3 <- DimPlot(scRNA, reduction = "umap",label = T,pt.size = 0.5) + NoLegend()p3 #没操作手动注释的所以没有p2跟花花老师的不一样是因为我用了不同的参考数据集
血液细胞数据库 数据库对于数据科学家来说,就像金矿一般。一个针对特定问题的数据库,可以为研究团队提供非常大的帮助。因为我们不用再费力去搜集和存储数据了。 本算法所用数据库就来自Kaggle平台,共包括12500张增强的血液细胞图片。 ? 数据库分为4个类别,每个类别包括约3000张图片。为了便于训练,我们将图片的大小缩减为80x80x3。 ? pip install kaggle (3)下载数据库: ! 前处理 我们需要将血液细胞图像作为numpy数组导入,并输入到神经网络中进行训练。 = (80, 80, 3))) model.add(MaxPool2D(pool_size = (2,2))) model.add(Conv2D(64, (3,3), strides
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 值得一提的是,SVM通常应用于二元分类变量预测,但是经过一些改进也可以勉强对多元分类变量预测,同时基于SVM的SVR也可以预测连续变量。 训练SVM单细胞分类器 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码 训练SVM单细胞分类器 : library( summary(model) save(model,file = 'svm_output.Rdata') 可以看到,用法其实就一句话代码而已,得到的SVM单细胞分类器模型如下所示 : > summary 好一点哦,跟 LASSO回归也可以用来做单细胞分类 的效果不相上下。
现在我们就可以来复现文章里面的免疫细胞亚群再分类了,如下: ? 免疫细胞亚群再分类 这幅图超级容易理解,就是13431个免疫细胞,可以继续细分为不同的亚群,如上所述。 首先我们挑选免疫单细胞 因为这个是系列连载教程,所以务必看前面的前面3讲是; CNS图表复现01—读入csv文件的表达矩阵构建Seurat对象 CNS图表复现02—Seurat标准流程之聚类分群 CNS 图表复现03—单细胞区分免疫细胞和肿瘤细胞 知道我是把全部的2万多个细胞的表达矩阵读入R,变成了Seurat对象,然后判断了细胞是否属于免疫细胞哈。 > as.data.frame(sort(table(phe$singleR))) Var1 Freq 1 Fibroblasts 91 2 DC 170 3 ", "Unknown", "T-cells", "pDCs", "B-cells-M", "MF-Monocytes") # free_annotation <- c("0","1", "2", "3"
前一天 折腾安装包 花了一个晚上加整整一个早上加中午,搞得人很崩溃,怀疑自己是否要坚持下去
前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 有一个评价是这样的机器学习模型都是黑箱子,其实随机森林还好,它可以拿到具体的每个分类的重要的基因列表,有点类似于每个单细胞亚群的特异性高表达量基因 ,就可以拿到上面代码里面的两个rdata文件哈,然后得到的 rf_importances 这个数据里面有各个单细胞亚群对应的基因。 虽然随机森林已经是很完美了,但是机器学习的算法非常多,我们有必要多用几个看看效果,接下来就演示一下LASSO回归,它也可以用来做单细胞分类。 训练LASSO回归模型 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码训练LASSO回归模型: # family= 好一点哦,主要占比极低的树突细胞和血小板区分的比较好: 模型效果更好 当然了,如果是系统性学习过机器学习算法,理论上我们的这样的分类器应该是有评价指标,而不是简单的肉眼看。
如果您的组织类型不存在分类器我们的仓库中,或者数据中不包含您期望的细胞类型,那么您需要生成自己的分类器。 训练分类器的第一步是加载单细胞数据。 一个简单有效的例子: >B cells expressed: CD19, MS4A1 >T cells expressed: CD3D 有几种方法可以在Garnett标记文件格式中定义细胞类型。 check_marker输出的值和plot_marker绘制的值是分类器可以选择的cell 数量的估计值。然而,它使用启发式快速找到候选细胞,并不能完全匹配标记所选择的细胞。 查看分类基因 Garnett 分类是使用多项弹性-网络回归训练(multinomial elastic-net regression)。这意味着选择某些基因作为区分细胞类型的相关基因。 参数是分类器,您想查看哪个节点(如果您的树是分层的)—使用“root”作为顶部节点,使用父细胞类型名称作为其他节点,使用db作为您的物种。
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 而且也尝试了多种机器学习的算法,比如:不输于LASSO的SVM单细胞分类器 无论是随机森林,LASSO回归,还是支持向量机, 他们的模型都是有点抽象,不容易直观的可视化解释清楚。 : > dim(predictor_data) [1] 1977 2000 > predictor_data[1:4,1:4] ISG15 CPSF3L -0.04970561 AAACCGTGCTTCCG 2.2197621 -0.2741145 -0.5625993 -0.04970561 我们的决策树模型就是把这2000个基因组合一下,来划分细胞的分类 然后是HLA-DRA可以区分B细胞以及树突细胞和其它细胞,其中B细胞以及树突细胞的区分靠CST3 然后T细胞里面的CD4靠NKG7区分出来,然后CD8和NK细胞靠FCER1G区分 这样的模型就非常容易解释清楚
Neşet Özel | Claude Desplan 文章链接:https://www.nature.com/articles/d41586-025-00088-1 需要牢记的是,分类学的目的(无论是细胞类型还是物种 para_01 自从近200年前细胞被确立为生命的基本单位以来,生物学家一直致力于表征和分类构成每个器官和生物体的无数不同细胞类型。 在过去的十年里,科学技术飞速发展,使得研究人员可以通过记录神经元的活动模式来对其进行功能分类,并根据其表达的基因进行分子分类。然而,目前对大多数神经系统中的细胞在分子、形态和功能描述之间仍存在脱节。 para_10 那么,细胞“类型”最终应该如何定义?需要牢记的是,分类学的目的(无论是细胞类型还是物种)并不是要解释所有可观察到的表型多样性,而是要提供一个实用且逻辑一致的参考框架。 para_12 单细胞转录组学彻底改变了科学家对细胞的理解和分类方式,特别是在能够在整个发育过程中评估大量神经元的情况下。然而,目前对人脑中细胞类型的估计相差数个数量级。
今天将分享细胞荧光显微喉癌分类完整实现版本,为了方便大家学习理解整个流程,将整个流程步骤进行了整理,并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。 HEp-2细胞,因其表达多种细胞核抗原,成为IIF实验的理想基质,尽管存在来源争议,现认为是人类乳突病毒相关宫颈腺癌细胞。 二、HEp-2_cell_classification2018任务 细胞荧光显微喉癌6分类:包含均质,斑点,核仁,着丝粒,核膜,高尔基。 数据下载: https://www.heywhale.com/mw/dataset/5ec3c6883241a100378d5d4a 四、技术路线 1、将图像缩放到固定大小96x96,然后采用均值为0, 3、训练结果和验证结果 4、验证集分类结果 5、测试集分类结果
Char3-分类问题 在人工智能上花一年时间,这足以让人相信上帝的存在————艾伦\cdot佩利 分类问题典型的应用就是教会机器如何去自动识别图片中物体的种类。 保存的形状是[h,w,3]的张量Tensor,即3维数组 如果是灰色照片,像素点就是一个1维、长度为3的向量;使用形状为[h,w]的二维数组来表示一张图片信息,也可以表示成[h,w,1]形状的张量 in R^{10} 真实标签y经过one-hot变成长度为10的稀疏向量y\in {0,1}^{10} 多输入和多输出的线性预测模型是o=W^Tx+b,希望其更接近真实标签y 误差计算 对于分类问题 非线性模型 o=\sigma(Wx+b) o=ReLU(Wx+b) layers.Dense(256, activation='relu') # 长度为256的向量 3. 输出 [b,784] --->[b,10] out = model(x) # 3.
http://mpvideo.qpic.cn/0bf27aabqaaazuakws3fpnqvb6gddd4aagaa.f10002.mp4? d4af46be562d2e473fd707fb0538d45a&dis_t=1654069709&vid=wxv_2088137652611940353&format_id=10002&support_redirect=0&mmversion=false 3 分类 分类模块对每张图设置一个类别标签作为标注。 3.1 分类标注 分类标注工具支持同时对多种类别混杂图进行标注,也可以对单一类别图进行批量标注。 分类标签名称长度限制为10个字符 1 溯源图 显示图像溯源信息 2 缺陷标注模式 切换缺陷标注和掩模编辑状态 3 ROI ROI编辑模式按钮,点击进入ROI编辑模式,调整ROI大小和位置 4 样本分布
引言 本系列讲解 使用 Scanpy 分析单细胞(scRNA-seq)数据 教程[1],持续更新,欢迎关注,转发! ="viridis" ) Heatmaps Heatmaps 不会像前面的图那样把细胞合并。 ,我们可以找出在细胞簇或组别中差异表达的基因。 该函数会依次取每一组细胞,将该组内每个基因的分布与该组外所有细胞的分布进行比较。这里,我们将使用 10x 提供的原始细胞标签,为这些细胞类型找出标记基因。 同时,我们希望只关注在某一细胞类型与其余细胞之间 log fold change ≥ 3 的基因。