介绍 文章对已知的多种细胞系混合后进行单细胞10X RNA测序,研究多克隆之间的互作模式。我们这里介绍里面的单细胞测序基因表达细胞分类操作。 不过文章选用的是已知固有SNP进行分类,基因表达分类用于和SNP分类进行比较。 FetchData(seuObj, vars = c('cell_quality')) seuObj <- seuObj[, which(cq$cell_quality == 'normal')] 进行细胞分类 = 'pca', dims = 1:n_pcs, k.param = 10 单细胞测序细胞分类/
干细胞的分类■ 根据干细胞来源划分胚胎干细胞 (ESCs):胚胎干细胞 (ESCs) 由于其再分化的能力远高于成体干细胞,拥有分化为三个胚层的细胞的多种分化潜能。 成体干细胞 (ASCs):是体细胞或组织特异性干细胞,也是未分化的细胞,在发育后的身体各部分中存在,具备分化为体内各种细胞的潜能。 Tips: 成体干细胞通过细胞分裂增殖的方式补充死亡细胞,并能使受损的组织再生,其中包括:造血干细胞 (HSCs),生殖干细胞 (GSCs),间充质干细胞 (MSCs),神经干细胞 (NSCs),视网膜干细胞 成体多能干细胞和寡能干细胞这些细胞的分化潜能稍次于多能干细胞 ESCs。成体多能干细胞 (Multipotent stem cells):如造血干细胞可进一步分化形成体内血小板和红细胞 (图 3)。 表 1:各类干细胞培养和诱导分化常用的人源细胞因子蛋白/细胞因子造血干细胞(HSC)胚胎干细胞(ESC)神经干细胞(NSC)诱导性多能干细胞(iPSC)间充质干细胞(MSC)FGF-2√√√√√EGF√
该笔记通过从内置 CellTypist 模型或用户训练的自定义模型中检索最可能的细胞类型标签来展示 scRNA-seq 查询数据的细胞类型分类。 本笔记仅介绍主要步骤和关键参数。 10,000(该矩阵也可以存储在 .raw.X 中)。 免疫细胞的分类非常详细。 一些模型元信息。 您还可以打开多数投票分类器 (majority_voting = True),它会在过度聚类方法后以增加运行时间为代价细化本地子簇内的细胞身份。 weights = model.classifier.coef_ weights.shape (10, 16201) 肥大细胞的三大驱动基因。
最重要的两个特点就是DNA复制、分裂成两个一样的子细胞。 在分析单细胞数据时,同一类型的细胞往往来自于不同的细胞周期阶段,这可能对下游聚类分析,细胞类型注释产生混淆;由于细胞周期也是通过cell cycle related protein 调控,即每个阶段有显著的 marker基因;通过分析细胞周期有关基因的表达情况,可以对细胞所处周期阶段进行注释;在单细胞周期分析时,通常只考虑三个阶段:G1、S、G2M。 下面文章中的:sce3 单细胞专题 | 9.如何人工注释单细胞类群? 具体参考文章【单细胞数据分析中scran包进行细胞周期分析时细胞周期marker基因的转换】 ###基因转换 library(clusterProfiler) library(org.Hs.eg.db)
单细胞数据分析中常用的降维方法包括 PCA,以及 UMAP,tSNE。对多个细胞进行聚类分群。细胞亚群分类是 10X ScRNA-seq 数据分析的核心步骤,不同软件有不同的算法。 UMAP 应该说是目前最好的降维算法了,现在的 10X 单细胞的降维图都选择了 UMAP,因为其能最大程度的保留原始数据的特征同时降低特征维数。 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 这里定义的“维度”并不代表细胞类型的数目,而是对细胞分类时需要用到的一个参数。 所以我们需要在 12 到 15 之间进行选择,(官网的建议10),我们选取 15,即前 15 个主成分用于细胞的分类。
9、性能问题 1)页面加载慢,延迟超过3秒 2)占用CPU、内存的大小,内存泄漏 10、安全相关 1)IP和端口号要改为域名显示 2)SQL注入测试 3)服务器安全问题 阿常碎碎念: 以上原内容来自网络检索
血液细胞数据库 数据库对于数据科学家来说,就像金矿一般。一个针对特定问题的数据库,可以为研究团队提供非常大的帮助。因为我们不用再费力去搜集和存储数据了。 本算法所用数据库就来自Kaggle平台,共包括12500张增强的血液细胞图片。 ? 数据库分为4个类别,每个类别包括约3000张图片。为了便于训练,我们将图片的大小缩减为80x80x3。 ? 前处理 我们需要将血液细胞图像作为numpy数组导入,并输入到神经网络中进行训练。 divide each input by its std zca_whitening=False, # apply ZCA whitening rotation_range=10
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 训练SVM单细胞分类器 首先,复制粘贴前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 ,就可以把单细胞表达量矩阵划分为训练集和测试集,然后走标准代码 训练SVM单细胞分类器 : library( summary(model) save(model,file = 'svm_output.Rdata') 可以看到,用法其实就一句话代码而已,得到的SVM单细胞分类器模型如下所示 : > summary predict(model, test_expr) head( test_outputs ) pred_y = test_outputs pdf('svm-performance.pdf',width = 10 ,跟 LASSO回归也可以用来做单细胞分类 的效果不相上下。
我们的CNS图表复现之旅已经开始,前面4讲是; CNS图表复现01—读入csv文件的表达矩阵构建Seurat对象 CNS图表复现02—Seurat标准流程之聚类分群 CNS图表复现03—单细胞区分免疫细胞和肿瘤细胞 ,详见:我在单细胞天地的教程:是否是免疫细胞很容易区分那是否是肿瘤细胞呢? 现在我们就可以来复现文章里面的免疫细胞亚群再分类了,如下: ? 免疫细胞亚群再分类 这幅图超级容易理解,就是13431个免疫细胞,可以继续细分为不同的亚群,如上所述。 图表复现03—单细胞区分免疫细胞和肿瘤细胞 知道我是把全部的2万多个细胞的表达矩阵读入R,变成了Seurat对象,然后判断了细胞是否属于免疫细胞哈。 B-cells-M", "MF-Monocytes") # free_annotation <- c("0","1", "2", "3", "4", "5", "6", "7", "8", "9", "10
单细胞测序技术以单个细胞作为对象,通过对单个细胞遗传物质均匀扩增,标记建库后进行测序,最后对单个细胞基因组或转录组展开数据分析,其技术原理主要包括单细胞分离、扩增测序和数据分析3方面。 市场上,较成熟的商业单细胞测序公司主要有 10X Genomis 公司 的Chromium( 液滴法) 及 BD 公司的Rhapsody( 微孔法)。 这里重点介绍 10×genomics技术。 10个碱基长的UMI,有100万种序列的变化(4^10 = 1,048,576),UMI的作用是为了区分哪些哪些reads是来自于一个原始cDNA分子,区分基因片段重复还是duplication及区分是真实的 3' 端文库的构建 通过10×genomics仪器将单个细胞与单个凝胶微珠通过油相混在一起,形成油包水的小微滴,接下来把细胞膜破掉,让细胞当中的mRNA游离出来。 10x Chromium是一种高通量方法,使用UMIs进行定量,适合研究高度异质组织和大量的细胞样本。 后面介绍数据怎么分析............
然而人们对构成人体肝脏的细胞类型和免疫微环境知之甚少。作者使用10x单细胞RNA测序手段绘制了人类肝脏细胞全景图,从来自五个人新鲜肝脏组织中分离得到的8444个实质和非实质细胞转录谱。 10x样品处理和cDNA文库制备 将组织破碎获得悬浮细胞溶液后,用台盼蓝染色计数检测细胞活率,在49-90%范围,使用10x Genomics Single Cell 3′ v2 Reagent Kit 作者都是按10x官方推荐的条件进行操作的。测序平台采用的是Illumina HiSeq 2500。 ? 用10x官方的CellRanger产生表达矩阵,接着用R包进行过滤、归一化、聚类。 过滤器阈值通常设定为10%,但是肝细胞线粒体含量很高,因此作者选择了阈值为50%,以优化保留肝细胞而去除死亡和垂死的细胞。作者还过滤除去了双核细胞。 ?
前面的 一个完美的单细胞亚群随机森林分离器是如何炼成的 有一个评价是这样的机器学习模型都是黑箱子,其实随机森林还好,它可以拿到具体的每个分类的重要的基因列表,有点类似于每个单细胞亚群的特异性高表达量基因 虽然随机森林已经是很完美了,但是机器学习的算法非常多,我们有必要多用几个看看效果,接下来就演示一下LASSO回归,它也可以用来做单细胞分类。 1, which.max)] pred_y = factor(pred_y,levels = levels(test_y)) pdf('lasso-performance.pdf',width = 10 ,主要占比极低的树突细胞和血小板区分的比较好: 模型效果更好 当然了,如果是系统性学习过机器学习算法,理论上我们的这样的分类器应该是有评价指标,而不是简单的肉眼看。 另外推荐生信菜鸟团的《周日-鲍志炜专栏》 如果是是python呢,我们生信菜鸟团的《周日-鲍志炜专栏》也有一个机器学习系列教程,目录如下: Jupyter Notebook 你不得不知的交互式笔记本 我最常用的 10
如果您的组织类型不存在分类器我们的仓库中,或者数据中不包含您期望的细胞类型,那么您需要生成自己的分类器。 训练分类器的第一步是加载单细胞数据。 例如,Garnett包含一个来自PBMC 10x V1表达式数据的小数据集. library(monocle3) library(garnett) # load in the data # NOTE: check_marker输出的值和plot_marker绘制的值是分类器可以选择的cell 数量的估计值。然而,它使用启发式快速找到候选细胞,并不能完全匹配标记所选择的细胞。 查看分类基因 Garnett 分类是使用多项弹性-网络回归训练(multinomial elastic-net regression)。这意味着选择某些基因作为区分细胞类型的相关基因。 参数是分类器,您想查看哪个节点(如果您的树是分层的)—使用“root”作为顶部节点,使用父细胞类型名称作为其他节点,使用db作为您的物种。
前面我们演示了 一个完美的单细胞亚群随机森林分离器是如何炼成的,以及 LASSO回归也可以用来做单细胞分类 的两个机器学习算法可以用来做单细胞分类器,而且效果杠杠的。 而且也尝试了多种机器学习的算法,比如:不输于LASSO的SVM单细胞分类器 无论是随机森林,LASSO回归,还是支持向量机, 他们的模型都是有点抽象,不容易直观的可视化解释清楚。 -0.04970561 AAACCGTGCTTCCG 2.2197621 -0.2741145 -0.5625993 -0.04970561 我们的决策树模型就是把这2000个基因组合一下,来划分细胞的分类 , which.max)] pred_y = factor(pred_y,levels = levels(test_y)) pdf('rpart-performance.pdf',width = 10 然后是HLA-DRA可以区分B细胞以及树突细胞和其它细胞,其中B细胞以及树突细胞的区分靠CST3 然后T细胞里面的CD4靠NKG7区分出来,然后CD8和NK细胞靠FCER1G区分 这样的模型就非常容易解释清楚
单细胞数据质量控制的核心诉求是什么? 答:去掉各种各样的低质量的细胞 。 单细胞数据质量控制的主要做了什么? 一般是指细胞的过滤,其实是从一个barcode X gene矩阵中过滤掉一部分不是细胞的barcode,如细胞碎片,双细胞,死细胞等。 percent_hb(红细胞基因表达比例):表明红细胞这个单细胞亚群的比例,一般来说不研究红细胞,所以过滤它没有问题。 percent_mito(线粒体基因表达比例):表明细胞状态,值过高可能是濒临死亡的细胞,同样,不能一概而论,有些组织样本的细胞处于高代谢过程,该值会高于正常组织。 关于整不整合数据,时要根据实验设计和单细胞数据本身决定的,其中,在整合数据是为了更好的注释细胞亚群,而不用纠结为什么相同的细胞亚群在UMAP展示的时候相隔千里,当然这可能是因为样本特异性导致的离群细胞亚群
Neşet Özel | Claude Desplan 文章链接:https://www.nature.com/articles/d41586-025-00088-1 需要牢记的是,分类学的目的(无论是细胞类型还是物种 para_01 自从近200年前细胞被确立为生命的基本单位以来,生物学家一直致力于表征和分类构成每个器官和生物体的无数不同细胞类型。 在过去的十年里,科学技术飞速发展,使得研究人员可以通过记录神经元的活动模式来对其进行功能分类,并根据其表达的基因进行分子分类。然而,目前对大多数神经系统中的细胞在分子、形态和功能描述之间仍存在脱节。 para_10 那么,细胞“类型”最终应该如何定义?需要牢记的是,分类学的目的(无论是细胞类型还是物种)并不是要解释所有可观察到的表型多样性,而是要提供一个实用且逻辑一致的参考框架。 para_12 单细胞转录组学彻底改变了科学家对细胞的理解和分类方式,特别是在能够在整个发育过程中评估大量神经元的情况下。然而,目前对人脑中细胞类型的估计相差数个数量级。
今天将分享细胞荧光显微喉癌分类完整实现版本,为了方便大家学习理解整个流程,将整个流程步骤进行了整理,并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。 HEp-2细胞,因其表达多种细胞核抗原,成为IIF实验的理想基质,尽管存在来源争议,现认为是人类乳突病毒相关宫颈腺癌细胞。 二、HEp-2_cell_classification2018任务 细胞荧光显微喉癌6分类:包含均质,斑点,核仁,着丝粒,核膜,高尔基。 3、训练结果和验证结果 4、验证集分类结果 5、测试集分类结果
引 之前需要做一个图像分类模型,因为刚入门,拿cifar10数据集练了下手,试了几种优化方案和不同的模型效果,这里就统一总结一下这段学习经历。 cifar10是是一个图像数据集(官网),包含10种类别的32*32大小的图像共60000张。另外还有cifar100,包含100种类别的更多图像。因此,cifar10分类就是一个图像多分类任务。 因此,本文要说的就是使用Keras框架来开发多种模型和优化方法去训练一个基于cifar10数据集的图像多分类模型。 最后就是接上输出层了,这层的神经元数量我们用分类数来表示,在cifar10中就是10类,最后的激活函数我们用softmax,这个函数适合多分类任务,sigmoid适合二分类任务。 完整的代码可以看我的github 结 以上,就是用Keras实验各种模型和优化方法来训练cifar10图像分类了,我认为这是一个很好的入手深度学习图像分类的案例,而Keras也是一个很好上手的框架,在这段学习过程中我受益良多
如果是进行百万张图片的分类,每个图片都有数以百万计的特征,我们将拿到一个 百万样本 x 百万特征 的巨型矩阵。传统的机器学习方法拿到这个矩阵时,受限于计算机内存大小的限制,通常是无从下手的。 实战项目——CIFAR-10 图像分类 最后我们用一个keras 中的示例, 本文源码地址: 关注微信公众号datayx 然后回复“图像分类”即可获取。 首先做一些前期准备: ?
细胞分割一直都是空间组学的一大难题,横平竖直的bin模式不是细胞真实的分布状态(这个在之前的文章中屡次提到)。 首先关于visium HD, poly-A based gene expression和probe-based gene expression均已可用,也就是说新鲜组织样本与FFPE样本均可以做10X的 万个图块进行训练,包括如下组织类型:人类:胸腺、皮肤(黑色素瘤)、前列腺、结肠、结肠癌、乳腺癌、乳腺癌、扁桃体、胸腺、脑癌、脑癌、肺癌、肺癌和脾脏小鼠:脑、骨、睾丸、小肠、脾、胚胎、肝、肺、肾和胸腺(10X 从目前搜集的情况来看,有4篇HD的实验类文章,其中一篇用到的是单细胞空间联合,另外三篇全部是细胞分割,由此可见细胞分割是大趋势。 )顶刊分享----组织驻留记忆CD8 T细胞多样性具有时空印记(HD + cellpose + Xenium)文献分享--颗粒酶K+CD8+ T细胞与成纤维细胞相互作用,促进鼻息肉中性粒细胞炎症(首篇10X