首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Advanced Science | 利用动态集成剪枝来识别和解释单细胞分子异质性和转录调控

Advanced Science | 利用动态集成剪枝来识别和解释单细胞分子异质性和转录调控

作者头像
DrugOne
发布2023-09-19 14:12:18
发布2023-09-19 14:12:18
5050
举报
文章被收录于专栏:DrugOneDrugOne

本文介绍吉林大学李向涛教授课题组发表在Advanced Science的研究成果,题为“Reliable Identification and Interpretation of Single-cell Molecular Heterogeneity and Transcriptional Regulation using Dynamic Ensemble Pruning”。无监督聚类是从单细胞RNA测序(scRNA-seq)数据中识别细胞类型的一个重要步骤。然而,无监督聚类模型的一个共同问题是,在没有监督信息的情况下,目标函数的优化方向和最终生成的聚类标签可能是不一致的,甚至是任意的。为了应对这一挑战,作者提出了一个动态集成剪枝框架(DEPF)来识别和解释单细胞分子的异质性。特别是,开发了一个基于剪影系数的指标来确定双目标函数的优化方向。此外,采用分层自动编码器将高维数据投射到多个低维潜空间集,然后通过基本聚类算法在潜空间中产生聚类集合。随后,设计了一种双目标果蝇优化算法,以动态地修剪集合中的低质量基本聚类。

结果

DEPF概述

DEPF由四个部分组成,以完成对单细胞分子异质性的可靠识别和解释(图1)。(i) 首先,通过去除低质量的细胞和基因来处理数据,然后使用对数转换对其余数据进行重新调整。之后,使用分层自动编码器生成多个潜在的低维空间集,以达到后续集合聚类的基本聚类结果。(ii) 为了指导修剪操作,开发了一个新的剪影系数指标,利用每个单元的平均簇内距离和单元到中心的距离之和来描述双目标函数的优化方向。(iii) 设计了一种双目标果蝇优化算法,以修剪集合体,利用对最终结果更有利的基本聚类方式。(iv) 基于最终的聚类结果进行了多样化的功能基因组分析,包括基因本体论富集分析、WikiPathways分析、蛋白质-蛋白质相互作用网络分析、转录因子-基因相互作用分析、miRNA-基因相互作用分析、蛋白质-药物相互作用以及疾病-基因关联分析,为解释scRNA-seq数据中发现的单细胞分子异质性提供新的见解。

图1 DEPF的整体框架

DEPF在scRNA-seq数据的细胞聚类方面性能卓越

作者在28个真实scRNA-seq数据集和一个来自不同平台和物种的大规模真实scRNA-seq数据集上进行了多个实验。28个真实scRNA-seq数据集的样本量从90到72914不等,而大规模真实scRNA-seq数据的大小超过了10万。就平台而言,28个真实scRNA-seq数据集来自9个平台。大规模的真实scRNA-seq数据,来自10X基因组学平台。在组织方面,数据集涉及到人类(17个数据集)和小鼠(12个数据集)。为了评估DEPF划分细胞簇的质量,作者采用了ARI和NMI这两个指标。

在28个真实的scRNA-seq数据集上,作者对DEPF与10个单细胞聚类算法进行了比较。这些算法包括scDHA、k-means、SC3、Seurat、SCANPY、SHARP、CIDR、SINCERA、SAME聚类和SAFE聚类。此外,作者还与6个深度聚类算法进行了比较,包括GraphSCC、scziDesk、scDCC、DCA、DEC和scGAE。另外,作者还与9种集成聚类算法进行了比较,包括LWEA、U-SENC、ECC、ECPCS-MC、KCC、LWGP、MCLA、PTGP和SEC。结果表明DEPF可以提供比这些单细胞聚类算法更好的性能。在大规模数据集上,DEPF与多种单细胞算法的比较中,取得了卓越的成绩。这表明DEPF在单细胞分析中具备更高的准确性和鲁棒性,为研究人员提供了一种强大的工具来解析单细胞转录组数据,揭示细胞间的异质性和转录调控机制。

双目标函数与优化方向的影响

作者在DEPF中加入了一个有方向的双目标函数;因此,对于各种scRNA-seq数据集来说,确定双目标函数的优化方向是至关重要的。为了证明具有优化方向的双目标函数的功效,我们比较了五个不同版本的DEPF:原始DEPF、无方向DEPF、反方向DEPF和两个单目标DEPF(Cp-DEPF、Dev-DEPF),其中无方向意味着双目标函数的方向只有正的("+"),反方向意味着与原始DEPF的方向相反(从 "+"到"-"和"-"到 "+"方向相反)。NMI指标被用来评估不同版本的DEPF在28个scRNA-seq数据集上的表现。

图2结果表明,由于DEPF是一种无监督的算法,不能保证DEPF在所有28个scRNA-seq数据集上都能产生最高的NMI值。但是,总体来说,双目标函数和优化方向是DEPF聚类性能的重要保证。

图2 双目标函数与优化方向的影响

DEPF可以识别其他方法无法识别的罕见细胞类型和小细胞团

为了研究DEPF是否能检测到其他方法检测不到的稀有细胞类型和小集群,作者在Wang、Baron(mouse)、Segerstolpe和Klein等含有稀有细胞类型和小集群的数据集上,将DEPF与其他六种方法(包括DCA、DEC、GraphSCC、scDCC、scGAE和scziDesk)进行了比较,以便深入检查。图3结果表明,DEPF可以在这些数据集上检测到其他方法无法检测到的罕见细胞类型和小集群;例如,在Wang数据集上,DEPF准确地识别了伽马细胞,而其他算法则将其与其他细胞混合在一起。在Baron(mouse)和Segerstolpe数据集上,DEPF成功地划定了导管细胞,而其他算法在识别导管细胞簇方面表现很差。DCA、DEC、scDCC、scGAE和scziDesk将导管细胞簇分为两部分,而GraphSCC将导管细胞簇分为三部分。此外,DEPF、DCA和GraphSCC在Klein数据集上有效地识别了d2集群,而DEC、scDCC、scGAE和scziDesk在d2集群中包括其他集群内的细胞。总的来说,我们提出的DEPF在识别细胞类型方面优于或补充了现有的方法,并可靠地检测到了罕见的细胞类型和小集群。

图3 DEPF识别罕见细胞类型和小细胞团

DEPF可以识别出其他传统方法未能检测到的新型集群

为了测试DEPF是否能识别其他传统方法无法检测到的新集群,作者将DEPF应用于结直肠癌(CRC)数据集。为了估计这个数据集的合适的聚类数量,作者首先通过在DEPF上指定14个种群来获得不同的标签分布,对聚类空间进行从2到15的迭代搜索。完成迭代后,用平均轮廓系数(MSC)来评估果蝇找到的标签。结果显示在图4中。结果清楚地表明基质细胞被分为三个不同的亚组,包括软骨细胞、成纤维细胞和内皮细胞。

此外,为了确认这些新发现的细胞类型是否与以前的研究结果一致,作者解释了通过Wilcoxon秩和检验确定的每种细胞类型的前两个标记基因,包括它们在所有细胞中的表达分布。从图中可以看出,这些差异表达的基因主要分布在相应的聚类中。此外,作者还在CellMarker的细胞标记数据库中手动匹配了不同细胞类型的标记基因。这些标记基因可以与之前公布的相应细胞类型的标记基因相匹配,证明了基质细胞被识别为三个不同亚群的可行性:包括软骨细胞、成纤维细胞和内皮细胞。

图4 DEPF识别新细胞簇

总结

在本文中,作者提出了一个DEPF来识别和解释单细胞的异质性。DEPF整合了无监督降维、集成聚类和一个双目标果蝇优化算法。特别是,为了指导优化,作者设计了一个指标来确定双目标函数的优化方向。此外,还提出了一种双目标果蝇优化算法来迭代搜索最优聚类结果。为了证明DEPF的有效性,作者将其应用于28个真实scRNA-seq数据集和一个大型真实scRNA-seq数据集。实验结果表明,DEPF在NMI和ARI方面优于10种单细胞聚类算法、6种深度聚类算法和9种集成聚类算法。生物可解释性以及转录和转录后调节器表明,DEPF可以发现有生物学意义的模式。

参考资料

Fan, Y., Wang, Y., Wang, F., Huang, L., Yang, Y., Wong, K., Li, X., Reliable Identification and Interpretation of Single-Cell Molecular Heterogeneity and Transcriptional Regulation using Dynamic Ensemble Pruning. Adv. Sci. 2023, 2205442.

https://doi.org/10.1002/advs.202205442

代码

https://github.com/fanyi21/DEPF

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-14 10:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档