
期刊: arxiv 链接: https://arxiv.org/abs/2507.06366 代码: https://github.com/spatialdatasciencegroup/DecoyDB 简介: 该论文针对蛋白质 - 配体结合亲和力预测中高质量标记数据稀缺的问题,提出了大型结构感知数据集 DecoyDB 及定制化图对比学习框架,创新点在于通过计算生成的诱饵构象构建正负样本对并利用其 RMSD 值优化对比损失。方法上,DecoyDB 包含高分辨率天然复合物和大量带 RMSD 标注的诱饵构象,框架结合双类别图对比损失(考虑不同类型负样本)和去噪分数匹配正则化进行预训练。实验使用 PDBbind 等数据集,结果显示基于 DecoyDB 预训练的模型在预测精度、样本效率和泛化能力上均优于基线模型,尤其在小样本场景下提升显著。该研究为蛋白质 - 配体结合亲和力预测提供了新的数据集和方法,有助于推动药物发现相关研究。

近期arxiv上发布的《DecoyDB: A Dataset for Graph Contrastive Learning in Protein-Ligand Binding Affinity Prediction》一文,在解决小样本约束下的亲和力预测难题方面展现出突破性价值。该研究不仅构建了目前规模最大的蛋白-配体自监督学习数据集,更提出了适配分子结构特性的图对比学习框架,为基于深度学习的药物发现研究提供了全新范式。
蛋白-配体结合亲和力预测是计算机辅助药物设计的核心环节,直接影响虚拟筛选与先导化合物优化的效率。传统方法中,分子力学(如MM/PBSA)与自由能计算(如FEP)虽精度较高,但计算成本使其难以应用于大规模筛选。近年来,基于3D卷积神经网络(CNN)和图神经网络(GNN)的深度学习方法逐渐成为主流,但其性能受限于标注数据的稀缺性。
目前应用最广泛的PDBbind数据集仅包含约2万个带亲和力标签的复合物,且这类实验标签的获取耗时费力,规模难以快速扩张。与之形成鲜明对比的是,PDB等结构数据库中存在超过17万个未标注的蛋白-配体复合物,这些数据蕴含的结构相互作用信息尚未被充分利用。
自监督学习通过海量无标签数据预训练模型,再结合少量标注数据微调的范式,为解决这一矛盾提供了可能。其中,图对比学习(GCL)在分子数据领域展现出独特优势,但现有研究面临两大挑战:一是缺乏定义清晰的正负样本对数据集;二是通用GCL的扰动方法(如节点/边删除)可能破坏分子的物理化学约束,生成非真实构象。DecoyDB的提出正是为了填补这一空白。
DecoyDB的构建遵循严格的质量控制与多样性设计原则,具体流程包括:

DecoyDB 的数据构建流程。

与蛋白质 - 配体复合物结合亲和力预测相关的公共数据集。
相较于现有资源,DecoyDB的核心优势体现在:

DecoyDB 的统计分析。(a)每个蛋白质 - 配体复合物的原子数量分布;(b)每个复合物的诱饵数量分布;(c)诱饵复合物的 RMSD 值分布;(d)诱饵复合物的 RMSD 值累积分布。
基于DecoyDB的特性,研究者设计了适配蛋白-配体系统的自监督学习框架,核心包括双类别对比损失与去噪正则化模块。
传统GCL采用单一负样本策略,而该框架创新性地设计了两类负样本:
最终损失函数通过InfoNCE形式整合正负样本对,公式如下:
其中z为GNN编码器输出的嵌入向量,τ为温度参数,m为每个锚点的正样本数。
为使模型学习能量最低构象的特征,框架引入去噪分数匹配(DSM)正则化:
最终总损失为L = L₁ + μL₂,其中μ为平衡系数。

在两个数据集上,该框架与基线模型的详细性能比较。
研究团队在多个基准数据集上验证了框架的有效性,关键发现包括:
在PDBbind2013核心集(107个复合物)和2016核心集(285个复合物)上,采用GIGN作为基础模型时:
在微调阶段改变标注样本量(2k-12k)的实验显示:
在 leakage-proof 的LP-PDBbind数据集(4651个测试样本)上:

损失函数中两个关键超参数 α 和 μ 的敏感性分析。(a)和(c)显示在两个数据集(PDBbind2013 和 PDBbind2016)上不同 μ 值的 RMSE 性能;(b)和(d)显示在相同两个数据集上不同 α 值的 RMSE 变化。红色虚线表示基线 GIGN 模型。

(a)预训练期间的训练和验证损失曲线;(b)消融研究;(c)微调数据集大小对结合亲和力预测的影响;(d)微调中的验证曲线。
DecoyDB的提出首次实现了蛋白-配体复合物的大规模自监督预训练,其创新点在于:
未来研究可拓展至结合构象预测、药物分子生成等任务,而DecoyDB开源资源(https://github.com/spatialdatasciencegroup/DecoyDB)的释放,将推动该领域的快速发展。对于从事计算药物设计的研究者而言,这一工作不仅提供了强大的工具,更启发了"利用计算生成数据赋能小样本学习"的新研究思路。
(●'◡'●) 需要进一步讨论的同学欢迎留言交流!
