
DRUGONE
阿斯加德古菌被认为在真核细胞起源过程中发挥了关键作用,其基因组中编码了许多与真核细胞结构和功能相关的蛋白。然而,这些蛋白在不同物种中的分布往往不连续,而且许多真核蛋白在古菌中缺乏明显的序列同源物,这限制了研究人员对真核细胞祖先复杂性的重建。研究人员利用从头蛋白结构预测与结构相似性搜索方法,对扩展的阿斯加德古菌基因组数据进行系统分析,构建了一个覆盖整个阿斯加德古菌泛基因组的结构目录。研究人员识别出 908种结构同构的真核特征蛋白(isomorphic ESPs),这些蛋白在结构上与真核蛋白显著相似,即使序列已经发生深度进化分化。相关蛋白主要参与信息存储与处理等关键生物过程,并包含与真核 Vault复合体和Commander复合体相关的关键成分,这些复合体可能参与细胞分区和内体运输过程。研究结果显著扩展了阿斯加德古菌中类真核蛋白的范围,并表明真核祖先古菌可能具有比此前认为更高程度的细胞复杂性。

真核细胞的出现标志着生命演化史上最重要的跃迁之一。与原核细胞相比,真核细胞具有复杂的内部结构和高度分区化的细胞器。当前普遍认为,真核细胞起源于古菌宿主细胞与细菌内共生体之间的共生事件,其中后者最终演化为线粒体。然而,在这一演化过程中,古菌宿主的具体身份长期难以确定。
这一问题在阿斯加德古菌被发现后取得突破。系统发育分析表明,该类古菌与真核生物关系最近,其基因组中包含大量所谓的 真核特征蛋白(ESP)。这些蛋白通常参与囊泡运输、细胞骨架形成和细胞信号传递等关键功能,是构成真核细胞复杂性的基础组件。部分研究已经表明,阿斯加德古菌中的某些ESP在功能上与真核同源蛋白相似。
然而,由于阿斯加德古菌蛋白与真核蛋白之间的序列差异非常大,传统基于序列相似性的同源检测方法往往难以识别它们之间的关系。随着蛋白结构预测技术的发展,特别是AlphaFold等方法的出现,研究人员可以通过结构相似性而非序列相似性来识别远缘同源蛋白,从而更全面地揭示古菌蛋白与真核蛋白之间的演化联系。
方法概述
研究人员首先构建了一个包含 936个阿斯加德古菌基因组的数据集,并从中收集了约 260万条蛋白序列。这些蛋白序列通过同源聚类与从头聚类方法被组织为约 3.7万个蛋白簇,随后为每个簇选择一个代表序列用于结构预测。
在结构预测阶段,研究人员采用结合多种方法的策略:首先使用基于蛋白语言模型的 ESMFold 进行快速结构预测;若预测置信度较低,则进一步利用 **ColabFold(AlphaFold2框架)**进行更精确的预测。通过这一流程,研究人员最终获得 37,223个高质量蛋白结构模型,并建立了阿斯加德古菌的结构泛基因组。随后,研究人员将这些结构与大型蛋白数据库中的结构进行比对,并通过统计方法识别在结构上更接近真核蛋白的候选ESP。

图1: 阿斯加德古菌结构泛基因组的建模流程。
结果
阿斯加德古菌泛基因组的结构建模
研究人员对阿斯加德古菌泛基因组进行了大规模结构预测,并成功构建了覆盖绝大多数蛋白家族的结构目录。结构注释结果显示,使用结构信息能够显著提高同源蛋白的识别能力。与仅依赖序列相似性的方法相比,结构比对能够识别更多远缘同源关系,尤其是在序列相似度低于20%的“同源识别灰区”中仍然可以检测到结构相似性。
这一结构分析策略使研究人员能够对大量此前无法注释的蛋白进行功能推断,从而显著提升了阿斯加德古菌蛋白组的功能解析程度。

图2: 结构信息显著提高了真核同源蛋白的识别能力。
扩展真核特征蛋白的范围
通过结构相似性搜索,研究人员共识别出 1,319个此前未被发现的类真核蛋白(iESPs)。这些蛋白被聚类为 908个结构家族,数量远高于此前报道的ESP家族数量。整体而言,该研究使潜在参与真核起源过程的阿斯加德古菌蛋白数量增加了三倍以上。
功能分析表明,这些新识别的iESP不仅参与细胞信号传导和细胞过程,还广泛分布于 信息存储与处理、代谢以及蛋白翻译等过程。特别值得注意的是,研究人员发现大量与 翻译和核糖体生物发生相关的蛋白,进一步支持了真核信息处理系统具有古菌来源的观点。

图3: 基于结构信息识别具有多样功能的 iESP 结构簇。
指示复杂细胞结构起源的蛋白复合体
进一步分析表明,一些新识别的iESP与真核细胞复杂结构相关。例如,研究人员发现了与 Vault复合体相关的蛋白同源物。Vault是目前已知最大的核糖核蛋白复合体之一,可能参与细胞运输、信号转导以及免疫反应。结构建模结果显示,阿斯加德古菌中的对应蛋白与真核Vault主要结构蛋白在结构上高度相似,提示该复合体可能起源于古菌祖先。
此外,研究人员还发现了与 Commander复合体相关的蛋白结构。该复合体在真核细胞中参与内体回收和膜蛋白运输。结构分析显示,阿斯加德古菌中存在与COMMD蛋白相似的结构域,并可能形成类似的多聚复合体。
研究人员还识别出多个仅在阿斯加德古菌和真核生物中共享的蛋白家族,例如 Ufm1和CINP 等,这些蛋白参与DNA损伤响应、蛋白修饰以及核糖体生物发生等关键过程。

图4: 阿斯加德古菌蛋白复合体揭示细胞分区结构的潜在起源。
讨论
通过对阿斯加德古菌泛基因组进行大规模结构分析,研究人员显著扩展了真核特征蛋白的范围,并揭示了大量此前未被识别的远缘同源蛋白。与传统序列分析相比,结构信息能够更有效地识别进化距离较远的蛋白家族,从而为研究真核细胞起源提供新的线索。
研究结果表明,阿斯加德古菌中存在大量与真核细胞关键功能相关的蛋白,包括参与细胞信号传导、信息处理以及代谢过程的蛋白。这些发现表明,真核祖先古菌可能已经具备相当程度的细胞复杂性,而真核细胞的出现很可能是在这一复杂古菌基础上进一步演化而来。
此外,许多ESP和iESP在不同阿斯加德古菌物种中的分布呈现“斑块式”模式,说明这些蛋白可能在演化过程中经历了多次基因丢失或水平转移。尽管结构相似性暗示这些蛋白在功能上可能与真核蛋白相似,但仍需要通过生化实验和高分辨率结构研究来验证其具体功能。
总体而言,该研究表明结构生物信息学方法能够显著拓展对生命早期演化过程的认识,并为理解真核细胞的起源提供新的视角。
整理 | DrugOne团队
参考资料
Köstlbacher, S., van Hooff, J.J.E., Panagiotou, K. et al. Prediction of eukaryotic cellular complexity in Asgard archaea using structural modelling. Nat Microbiol 11, 747–758 (2026).
https://doi.org/10.1038/s41564-026-02273-y