Nat. Mach. Intell. | 评估元学习基础模型在天然产物抗菌活性预测中的表现

DrugAI

发布于 2026-03-03 17:28:40

650

DRUGONE

深度学习基础模型在生物活性预测领域日益受到关注。此前研究人员提出了ActFound，这是一种结合成对学习与元学习策略的生物活性基础模型。通过在大规模数据上进行预训练，ActFound能够利用少量新数据快速适配至新的生物活性任务。本研究旨在评估该模型在抗菌天然产物数据集上的泛化能力。由于天然产物领域缺乏大规模标注数据，其生物活性预测成为基础模型理想的应用场景。研究人员在不同few-shot条件下对ActFound进行了微调测试，并与多种先进模型进行比较。结果表明，ActFound在抗菌天然产物数据集上的整体准确性低于其原论文报告的跨领域任务表现，但在低样本设置下，其性能与其他模型相当甚至更优。这表明ActFound仍然是一种适用于数据有限场景的有价值框架，尤其适合包含结构相似化合物的数据集。

化合物的生物活性是药物发现的核心因素，直接关系到分子的有效性、选择性和开发潜力。尽管深度学习方法在活性预测方面取得显著进展，但其性能高度依赖于大规模高质量标注数据。然而，在许多实际场景中，尤其是天然产物领域，这类数据资源相对匮乏。基础模型通过在通用数据上预训练后再进行任务微调，为解决数据稀缺问题提供了新的可能。ActFound 是一种基于元学习的基础模型，其核心思想是通过“学习如何学习”来提升模型在新任务上的快速适应能力。同时，该模型采用成对学习机制，通过预测同一实验中两个分子的活性差异来缓解不同实验指标和数值范围不一致的问题。在微调阶段，模型利用 kNN-MAML 方法寻找与目标实验相似的训练任务，从而实现高效适配。

在天然产物数据集上的微调研究

为评估 ActFound 在未探索领域中的泛化能力，研究人员将其应用于一个抗菌天然产物数据集。该数据集来源于系统文献整理，包含植物来源化合物对多种细菌的生长抑制活性。天然产物长期以来是抗生素的重要来源，但其研究面临结构高度多样化与数据稀缺的挑战。研究人员分别使用在 ChEMBL 与 BindingDB 数据上预训练的模型进行微调测试，并在 8 至 128 shot 的不同设置下评估模型表现，同时还测试了使用 20% 至 80% 数据比例进行微调的效果。在实验设计中，每一种细菌菌株被视为独立 assay。

数据空间分析显示，天然产物数据与训练数据在化学空间上存在一定重叠，t-SNE 可视化结果表明两者具有部分分布交叉关系。Tanimoto 相似性分析发现少量相同分子，但在移除这些潜在重叠数据后，模型性能并未显著变化，说明数据泄漏并非性能变化的主要原因。

在整体表现上，ActFound Transfer 在平均 r² 指标上优于原始 ActFound，而 ActFound 在 RMSE 指标上表现更优。在 shot 设置方面，模型在 16-shot 条件下表现最佳，但随着 shot 数增加，平均性能反而下降。这一现象与原论文中“shot 越多性能越好”的趋势不同。进一步分析发现，仅有少数 assay 拥有足够数据支持高 shot 设置，从而影响了整体平均结果。当采用按比例数据进行微调时，模型性能随数据比例增加而提升，更符合理论预期。

图1：微调流程示意图。

图2：ActFound 在天然产物数据集上的整体性能表现。

不同 Assay 上的性能差异与成对学习机制分析

在 14 个菌株 assay 上，模型表现差异显著，r² 值范围介于 0.01 至 0.13 之间。与原论文中的跨领域任务相比，其性能略低甚至在部分 assay 上明显下降。进一步分析显示，大规模 assay 反而表现较差，从而拉低了整体平均结果。此外，原论文指出第一步优化损失值与最终 r² 存在正相关关系，但在本研究数据集中未观察到这一现象。

ActFound 依赖成对学习机制，假设结构相似分子具有相似生物活性。然而，天然产物具有高度结构多样性，单一菌株 assay 中往往包含大量结构差异较大的分子。当研究人员尝试移除低相似度“孤立分子”时，数据量不足以支撑微调任务。此外，scaffold 分析表明天然产物数据集的骨架多样性高于训练集。这种高多样性削弱了成对学习的优势，也揭示了该方法在化学空间高度分散场景下的局限性。

图3：不同菌株 assay 上的模型表现。

与其他先进模型的比较

研究人员进一步将 ActFound 与 MAML、ProtoNet 以及 TransferQSAR 等模型进行比较。总体而言，ActFound Transfer 在大多数设置下表现最佳，而 ActFound 的表现则较为波动。然而，在最低 shot 条件下，ActFound 与 ActFound Transfer 的 r² 值均高于其他模型，显示出其在少样本条件下的快速适应能力。这一结果说明，尽管成对学习在高度多样化数据集中受到限制，但在极低数据量场景下仍具优势。

图4：与其他模型的性能比较。

讨论与结论

本研究对 ActFound 的可复用性进行了系统评估。尽管其在天然产物抗菌数据集上的整体性能低于原论文报告的跨领域任务结果，但在低数据量条件下仍优于多种先进模型。性能下降的主要原因可能在于天然产物数据集中缺乏结构相似的化合物对，从而削弱了成对学习机制的有效性。研究人员认为，ActFound 更适合用于结构–活性关系研究数据集，这类数据集中通常包含大量相似分子，有利于成对学习发挥作用。然而，对于未覆盖化学空间中的新型分子活性预测问题，无论是 ActFound 还是其他深度学习方法，目前仍未完全解决。

整理 | DrugOne团队

参考资料

Butt, C.M., Walker, A.S. Reusability Report: Evaluating the performance of a meta-learning foundation model on predicting the antibacterial activity of natural products. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01187-y