


生命科学
Life science


随着单细胞和空间测序技术的迅速发展,科研人员如今能够在单细胞分辨率下深入解析组织和细胞的异质性。单细胞RNA测序(scRNA-seq)和单细胞转座酶可及染色质测序(scATAC-seq)等技术可以分别定量单个细胞的转录组和表观基因组,而空间测序技术更是能同时获取分子表达信息和空间位置信息。这些多组学数据为理解细胞命运决定的转录调控机制提供了前所未有的机会。
然而,当前的单细胞多组学数据整合方法主要面临两大挑战。一方面,现有整合方法(如Seurat、LIGER、MOFA等)通常将多组学数据投影到共享潜在空间,但未能揭示转录组和表观组特征之间的内在联系——这正是推断转录调控关系的关键信息。另一方面,基于相关性或回归的调控网络推断方法(如Cicero、ArchR、DIRECT-NET等)无法解析不同时空状态下细胞的特异性转录调控规律,缺乏识别细胞特异性或细胞类型特异性顺式调控元件(cis-regulatory elements, CREs)的能力。
为了解决这些问题,近日武汉大学人工智能学院张丽华教授和加州大学尔湾分校聂青教授团队在Cell Press细胞出版社期刊Cell Systems上发表了题为“Interpretable data integration for single-cell and spatial multi-omics”的文章,开发了一种基于特征引导最优传输(Feature-guided optimal transport, FGOT)的计算方法。FGOT创新性地将数据整合和细胞特异性转录调控网络推断相结合,能够同时揭示细胞异质性及其相关的转录调控关系。该方法的代码已经公开(https://github.com/lhzhanglabtools/FGOT)。


▲长按图片识别二维码阅读原文
FGOT是基于最优传输理论将数据整合与细胞特异性转录调控网络推断相结合的方法。最优传输理论本身是数学领域的重要分支,用于寻找两个概率分布之间的最优映射方式。针对单细胞或空间的转录组学数据与染色质可及性数据,FGOT利用peak与gene间的先验知识,即顺式调控元件通常位于基因启动子附近(默认转录起始位点双侧250kb范围内),这一先验知识被用于约束最优输路径。为了进一步提升计算效率,FGOT设计了基于锚点的小批量求解算法。FGOT为每对可能的顺式调控元件-基因对返回细胞间的传输概率(图1A)。FGOT方法的另外一个特色之处,可以基于已有的单细胞/空间多组学数据整合方法获取细胞间传输代价,使现有整合方法能够通过其对齐的嵌入结果,在揭示细胞特异性的转录调控关系时具备可解释性(图1B)。FGOT的输出可以用于下游分析,包括多组学对齐、细胞状态特异性的转录调控关联,以及基因调控网络(GRN)推断(图1C)。

图1 FGOT方法示意图。
FGOT被应用于三个模拟数据集和三个代表性真实数据集,真实数据集包括外周血单个核细胞(PBMCs)的配对scRNA-seq与scATAC-seq数据、原代骨髓单个核细胞(BMMCs)的非配对scRNA-seq与scATAC-seq数据,以及P22小鼠大脑spatial ATAC-RNA-seq数据。广泛的基准测试分析表明,在利用独立的功能基因组学数据(如 HiChIP和ChIP-seq)以及来自全基因组关联研究的疾病相关遗传变异,对数据整合与调控关联推断进行评估时,FGOT展现出优异的性能,不仅能够有效地对齐多组学数据,还能准确解析细胞类型或空间特异性的转录调控编码。


相关论文信息

论文原文刊载于Cell Press细胞出版社
旗下期刊Cell Systems,
点击“阅读原文”或扫描下方二维码查看论文

▌论文标题:
Interpretable data integration for single-cell and spatial multi-omics
▌论文网址:
https://www.sciencedirect.com/science/article/pii/S2405471225003126
▌DOI:
https://doi.org/10.1016/j.cels.2025.101479

▲长按图片识别二维码阅读原文