AI+Drug 文献速递 | 介绍一种基于序列数据的深度学习框架，用于精准预测抗原-抗体相互作用并揭示其机制

MindDance

发布于 2026-01-08 12:41:09

4180

1. DeepInterAware: Deep Interaction Interface-Aware Network for Improving Antigen-Antibody Interaction Prediction from Sequence Data

期刊：Advanced Science

链接：https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202412533

简介：本文提出了DeepInterAware框架，通过动态整合从序列数据中学习到的相互作用界面信息和序列固有特异性信息，显著提升了抗原-抗体相互作用（AAI）的预测精度，创新点在于能够仅基于序列数据识别潜在结合位点并预测突变对结合自由能的影响。方法上，DeepInterAware利用预训练语言模型（ESM-2和AbLang）获取抗原和抗体的序列嵌入，并通过设计的交互界面感知学习器（IIL）和特异性信息学习器（SIL）捕捉AAI的隐含结构信息，最后通过动态置信融合模块（DCF）结合两类信息进行预测。实验使用了AVIDa-hIL6、SAbDab、HIV和CoV-AbDab等数据集，结果表明DeepInterAware在结合和中和任务中均优于现有方法，特别是在预测未见抗原或抗体的相互作用时表现出强大的归纳能力和迁移能力。总结而言，DeepInterAware不仅提升了AAI预测的准确性，还提供了识别结合位点和预测突变影响的独特优势，为抗体筛选和药物开发提供了重要工具。

2. LANTERN: Leveraging Large Language Models and Transformers for Enhanced Molecular Interactions

期刊：bioRxiv

链接：https://www.biorxiv.org/content/10.1101/2025.02.10.637522v1

简介：本文提出了一种名为LANTERN的新型深度学习框架，通过结合大型语言模型（LLMs）和Transformer架构，显著提升了药物-靶标相互作用（DTI）、蛋白质-蛋白质相互作用（PPI）和药物-药物相互作用（DDI）的预测性能。该方法利用预训练的LLM生成药物和蛋白质的高质量嵌入，并通过Transformer编码器融合这些嵌入，从而捕捉复杂的生化关系。实验在多个标准数据集（如DAVIS、KIBA、BioSNAP、DeepDDI和Yeast PPI）上进行，结果表明LANTERN在DTI和DDI任务上达到了最先进的性能，并在PPI任务上表现出竞争力。总结来说，LANTERN提供了一种无需3D结构数据的高效、可扩展的分子相互作用预测解决方案，具有广泛的应用潜力。

3. SMCLMDA: statistical meta-paths contrastive learning for predicting miRNA-disease multidimensional relationships

期刊：bioRxiv

链接：https://www.biorxiv.org/content/10.1101/2025.02.11.637780v1

简介：本文提出了一种基于统计元路径对比学习的新方法（SMCLMDA），用于准确预测miRNA与疾病之间的多维关系（包括上下调、因果/非因果关系），创新点在于通过构建统计元路径视图并结合对比学习策略，增强了相似性视图的表示。方法上，SMCLMDA首先利用Node2Vec获取miRNA和疾病的局部结构信息作为图卷积神经网络（GCN）的初始节点输入，然后通过统计方法构建元路径视图，并通过对比学习策略增强相似性视图的表示，最后通过多层感知机（MLP）计算miRNA与疾病多维关系的预测概率。实验使用了HMDD v4.0、miR2Disease和miRTarBase等数据集，结果表明SMCLMDA在预测传统关联、上下调及因果/非因果关系方面均优于现有方法，案例研究进一步验证了其在识别潜在miRNA-疾病关联中的有效性。总结而言，SMCLMDA通过统计元路径和对比学习策略，显著提升了miRNA-疾病多维关系的预测性能。

4. Normalized Protein–Ligand Distance Likelihood Score for End-to-End Blind Docking and Virtual Screening

期刊：Journal of Chemical Information and Modeling

链接：https://pubs.acs.org/doi/10.1021/acs.jcim.4c01014

简介：本文提出了DiffDock-NMDN协议，结合扩散生成模型DiffDock和基于归一化混合密度网络（NMDN）的评分函数，实现了端到端的盲对接和虚拟筛选，创新点在于通过NMDN评分函数从序列数据中学习蛋白质-配体距离的概率密度分布，并引入交互模块预测实验结合亲和力，显著提升了虚拟筛选的准确性。方法上，DiffDock-NMDN首先利用DiffDock生成多个配体结合构象，然后通过NMDN评分函数选择最优构象，最后使用评分函数估计结合亲和力。实验在PDBbind、CASF-2016、MerckFEP和LIT-PCBA等数据集上进行，结果表明DiffDock-NMDN在盲对接和虚拟筛选任务中均优于现有方法，特别是在LIT-PCBA数据集上实现了平均4.96的富集因子。总结而言，DiffDock-NMDN不仅提供了高效的盲对接和虚拟筛选协议，还为未来评分函数的开发提供了新的基准。

5. Learning universal knowledge graph embedding for predicting biomedical pairwise interactions

期刊：bioRxiv

链接：https://www.biorxiv.org/content/10.1101/2025.02.10.637419v2

简介：本文提出了一种名为LukePi的自监督预训练框架，旨在通过生物医学知识图谱（BKG）预测生物医学成对相互作用，创新点在于结合了基于拓扑的节点度分类和基于语义的边恢复两个自监督任务，从而有效捕捉BKG中的丰富信息。方法上，LukePi通过预训练图神经网络（GNN）模型，利用这两个任务生成高质量的节点表示，并在下游任务中进行微调。实验使用了四个基准数据集（SynLethDB、LAML-specific SL dataset、BindingDB和Wang’s DTI dataset），在分布偏移和低数据场景下，LukePi显著优于15个基线模型。总结来看，LukePi通过自监督预训练策略在生物医学相互作用预测中表现出强大的泛化能力和有效性。

6. miRTarDS: High-Accuracy Refining Protein-level MicroRNA Target Interactions from Prediction Databases Using Sentence-BERT

期刊：bioRxiv

链接：https://doi.org/10.1101/2024.05.17.594604

简介：本文提出了一种名为miRTarDS的新方法，通过微调Sentence-BERT模型计算miRNA与基因之间的疾病相似度，进一步优化基于序列预测的miRNA靶标相互作用（MTIs），创新点在于利用疾病相似度作为关键特征来区分实验验证的MTIs和预测的MTIs。方法上，miRTarDS通过微调Sentence-BERT模型生成疾病相似度矩阵，并使用随机森林分类器对MTIs进行分类。实验使用了miRTarBase、miRWalk和miRDB等数据集，训练集为miRTarBase 2022，验证集为miRTarBase 2025，结果显示miRTarDS在区分功能性和预测性MTIs时F1得分达到0.88，并在miRTarBase 2025中准确识别了90%的新功能性MTIs。总结来看，miRTarDS通过结合疾病相似度显著提升了MTIs预测的准确性，具有广泛的应用潜力。

7. 3BTRON: A Blood-Brain Barrier Recognition Network

期刊：bioRxiv

链接：https://doi.org/10.1101/2025.02.12.637854

简介：本文提出了一种名为3BTRON的深度学习框架，用于自动分析电子显微镜（EM）图像中的血脑屏障（BBB）结构，创新点在于通过年龄作为输出，结合深度迁移学习技术，实现了对老年和年轻小鼠BBB结构的准确区分。方法上，3BTRON使用ResNet50模型提取图像特征，并结合分类数据通过全连接神经网络进行最终预测。实验基于359张EM图像数据集，模型在未见数据上的预测敏感性和特异性分别达到77.8%和80.0%，并通过特征重要性分析揭示了图像中对预测贡献最大的空间特征。总结来看，3BTRON为研究BBB结构随年龄变化提供了一种高效、客观的分析工具，具有广泛的应用潜力。

8. Decoding RNA-RNA Interactions: The Role of Low-Complexity Repeats and a Deep Learning Framework for Sequence-Based Prediction

期刊：bioRxiv

链接：https://doi.org/10.1101/2025.02.16.638500

简介：本研究揭示了低复杂度重复序列（LCRs）在RNA-RNA相互作用中的关键作用，并开发了一种基于深度学习的预测工具RIME，显著优于传统热力学模型。研究人员通过分析多个高通量数据集（如PARIS、SPLASH、RIC-seq等），发现LCRs在RNA相互作用中具有高度连接性和热力学稳定性，并通过Lhx1os lncRNA的RNA pull-down实验验证了其功能相关性。实验利用mESC衍生的运动神经元进行RNA测序，结合COMRADES数据分析NORAD lncRNA的相互作用，证明RIME在预测高置信度和功能性相互作用中的优越性能。该研究为理解RNA相互作用网络提供了新视角，并为RNA生物学研究开辟了新途径。

9. Gradient GA: Gradient Genetic Algorithm for Drug Molecular Design

期刊：arXiv

链接：https://arxiv.org/abs/2502.09860v1

简介：本文提出了一种名为梯度遗传算法（Gradient GA）的新方法，通过将梯度信息引入遗传算法以提升分子设计的效率和性能。该方法利用图神经网络学习可微目标函数，并结合离散朗之温提案（DLP）在离散分子空间中进行梯度引导的采样。实验基于ZINC 250K数据集，使用多种基准指标（如Average Top-10、AUC等）评估，结果表明Gradient GA在优化速度和解质量上显著优于现有方法，例如在优化甲基炔诺酮相似性属性时比传统GA提升高达25%。研究为药物分子设计提供了一种高效且精确的新工具，具有重要的实际应用价值。

10. Agentic End-to-End De Novo Protein Design for Tailored Dynamics Using a Language Diffusion Model

期刊：arXiv

链接：https://arxiv.org/abs/2502.10173

简介：本文提出了一种基于语言扩散模型的端到端蛋白质设计框架VibeGen，通过将低频振动模式与序列生成结合，实现了针对特定动态特性的从头蛋白质设计，创新性地将蛋白质动力学直接整合到生成模型中。该方法采用双模型架构，包括基于条件扩散模型的蛋白质设计者（PD）和预测者（PP），并通过协作优化多样性和准确性。实验利用来自PDB数据库的12,924条蛋白质链构建数据集，结合正常模式分析和全原子分子动力学模拟验证设计结果，生成的蛋白质在结构和振动特性上均与目标一致，并展现出显著新颖性。研究为功能性动态蛋白质设计提供了新工具，拓展了传统静态结构设计的局限性。

11. AffinityFlow: Guided Flows for Antibody Affinity Maturation

期刊：arXiv

链接：https://arxiv.org/abs/2502.10365

简介：本文提出了一种名为AffinityFlow的抗体亲和力成熟方法，通过序列突变增强抗体与抗原的结合亲和力，创新性地结合了结构引导生成和序列预测优化。该方法基于AlphaFlow框架，利用交替优化策略，通过结构引导生成高亲和力构象并引入靶向突变，同时设计了共教学模块以整合生物物理能量信息提升预测器性能。实验使用SAbDab数据集中的单域抗体（sdAb）及其抗原复合物，通过Rosetta计算结合自由能变化，并在60个测试样本上评估功能性和特异性，结果表明AffinityFlow在改善结合亲和力和降低抗体相似性方面表现最优。研究为抗体设计提供了高效且精确的计算工具，推动了基于深度学习的亲和力优化技术发展。

12. CellFlow: Simulating Cellular Morphology Changes via Flow Matching

期刊：arXiv

链接：https://arxiv.org/abs/2502.09775

简介：CellFlow通过流匹配技术模拟化学和遗传扰动引起的细胞形态变化，创新性地将细胞形态预测问题转化为分布到分布的学习问题，有效区分了真实扰动效应与实验批次效应。该方法利用流匹配技术，通过神经网络学习速度场，将未扰动细胞图像分布连续转化为扰动后的细胞图像分布。实验在BBBC021（化学扰动）、RxRx1（遗传扰动）和JUMP（混合扰动）数据集上进行，CellFlow生成的细胞图像在FID分数上比现有方法提高了35%，在作用模式预测准确率上提高了12%，并且能够实现细胞状态之间的连续插值，为研究扰动动态提供了潜在工具。CellFlow不仅在性能上达到了最先进水平，还解锁了处理批次效应和可视化细胞状态转换等新能力，显著推动了虚拟细胞建模在生物医学研究中的应用。

13. Revealing Subtle Phenotypes in Small Microscopy Datasets Using Latent Diffusion Models

期刊：arXiv

链接：https://arxiv.org/abs/2502.09665

简介：本文提出了一种名为Phen-LDiff的新方法，利用预训练的潜在扩散模型在小规模显微图像数据集中检测细微的表型变化，创新点在于通过少量数据实现高效表型识别。该方法通过对源类图像进行反演生成潜在编码，并在目标类中生成对应图像以揭示表型差异。实验使用了BBBC021、Golgi、LRRK2和Translocation四个生物数据集，结果表明Phen-LDiff能有效捕捉显著和细微的表型变化，并在翻译质量上优于现有方法。研究表明，Phen-LDiff在低数据条件下具有良好的泛化能力，为生物研究和药物发现提供了有力工具。

14. Artificial Intelligence in Spectroscopy: Advancing Chemistry from Prediction to Generation and Beyond

期刊：arXiv

链接：https://arxiv.org/abs/2502.09897

简介：本文综述了人工智能在光谱学中的应用，特别是光谱机器学习（SpectraML）的进展，创新性地将光谱分析任务分为正向（分子到光谱预测）和逆向（光谱到分子推断）问题，并系统梳理了相关方法。文章介绍了从早期模式识别到现代生成模型和推理框架的演变，重点讨论了图神经网络、Transformer和基础模型在光谱分析中的应用。实验部分涵盖了质谱（MS）、核磁共振（NMR）、红外（IR）、拉曼（Raman）和紫外-可见光谱（UV-Vis）等多种光谱技术，并总结了相关数据集和模型性能。本文为光谱学与人工智能的交叉研究提供了系统框架，推动了光谱分析的自动化和智能化发展。

15. A hitchhiker's guide to deep chemical language processing for bioactivity prediction

期刊：Digital Discovery

链接：https://doi.org/10.1039/D4DD00311J

简介：本文系统分析了深度学习在化学语言处理（CLP）中的应用，创新性地提出了针对生物活性预测的模型选择与优化指南。研究通过对比三种神经网络架构（CNN、RNN、Transformer）、两种分子字符串表示（SMILES、SELFIES）和三种编码策略（one-hot、随机、可学习嵌入），在十个生物活性数据集上进行了分类和回归任务的实验。结果表明，卷积神经网络（CNN）在分类任务中表现最佳，而Transformer在回归任务中更具优势；SMILES字符串与可学习编码的组合在大多数情况下表现优异。实验数据集包括来自ExCAPE-DB和MoleculeACE的多个靶点，涵盖G蛋白偶联受体、核受体和激酶等多种靶点家族。本文为研究人员提供了实用的模型选择和优化建议，推动了化学语言处理在药物发现中的应用。

16. Structural biology of RNA and protein-RNA complexes after AlphaFold3

期刊：ChemBioChem

链接：https://doi.org/10.1002/cbic.202401047

简介：本文评估了AlphaFold3在预测RNA结构和蛋白质-RNA复合物结构方面的表现，指出其在非经典相互作用和复杂系统中的局限性，并建议结合数据驱动的对接工具来弥补这些不足。通过具体案例，作者展示了AlphaFold3在预测简单RNA结构和蛋白质-RNA复合物时的成功与失败，特别是在缺乏训练数据的非经典相互作用中表现不佳。实验结果表明，尽管AlphaFold3在预测经典相互作用时表现良好，但在复杂系统中仍存在显著偏差，因此用户在使用其预测结果时应谨慎。总结而言，AlphaFold3在RNA和蛋白质-RNA复合物结构预测方面尚未达到可靠水平，仍需结合实验数据进行验证和优化。

17. Biophysics-guided uncertainty-aware deep learning uncovers high-affinity plastic-binding peptides

期刊：Digital Discovery

链接：https://doi.org/10.1039/D4DD00219A

简介：本文提出了一种结合生物物理建模和证据深度学习（EDL）的方法，用于设计高亲和力的塑料结合肽（PBPs），以解决微塑料污染问题。通过将PepBD算法生成的生物物理数据与EDL模型结合，并利用元启发式搜索方法，成功识别出对聚乙烯、聚丙烯和聚苯乙烯具有更高吸附自由能的PBPs。实验使用分子动力学模拟验证了EDL设计的肽在聚乙烯、聚丙烯和聚苯乙烯上的吸附自由能分别提高了5%、18%和34%，表明该方法在微塑料修复中具有潜力。总结而言，该研究通过不确定性量化加速了肽的发现，为微塑料污染提供了有效的生物解决方案。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-18，如有侵权请联系 cloudcommunity@tencent.com 删除

优化