
在药物发现流程中,限制机器学习(ML)和深度学习(DL)模型潜力的一个关键瓶颈是高质量实验数据的匮乏。将标准ML和DL算法直接应用于这些小规模数据集会带来显著挑战。具体而言,传统ML模型仍受限于其对手工特征工程的依赖,以及对复杂生物学关系捕捉能力的不足;相比之下,假设数据充足的DL算法在小数据集上训练时,往往容易出现过拟合和泛化能力差的问题。因此,小数据问题构成了一个根本性约束,直接影响AI在药物发现及研发中的实际效用和可信度。
针对上述问题,密西根大学Nazreen Pallikkavaliyaveetil与Sriram Chandrasekaran于2025年12月18日在《Advanced Drug Delivery Reviews》期刊上发表综述文章,题为“Small data, big challenges: Machine- and deep-learning strategies for data-limited drug discovery”。该综述通过梳理关键药物发现任务,综合分析适用于这些情境的传统ML方法与先进DL策略。

背景
机器学习(ML)和深度学习(DL)已在药物发现流程的关键阶段取得进展。支持向量机(SVM)、随机森林(RF)、梯度提升树(GBT)、朴素贝叶斯(NB)和逻辑回归(LR)等传统ML算法,长期以来被用于多种药物发现任务,从组学和化学数据中提取有意义的特征。在小数据情境下,这类模型因其稳健性、可解释性和计算效率而具有吸引力。然而,ML方法依赖人工特征工程,且缺乏端到端学习能力,限制了对复杂非线性模式的捕捉以及在多样化生物医学场景中的泛化能力。相比之下,DL模型能够从原始输入数据中自动学习复杂表征,实现无需人工特征工程的端到端建模。在数据充足的药物发现应用中,DL模型已取得显著成果,显示出在高质量大数据条件下的潜力。这些成功在很大程度上依赖于大规模、高质量标注数据,而这一条件在生物医学研究中往往难以满足。
不同于计算机视觉或自然语言处理领域,药物发现中的数据通常规模有限、形式异质且测量噪声较大。尤其是在早期研究、罕见疾病等领域,生成标注数据成本高昂、耗时长,且难以规模化实施。这种小数据约束对标准DL流程构成重大挑战,因为DL通常需要大量数据才能实现有效泛化并避免过拟合。为克服这些限制,研究者逐渐探索适用于小数据环境的DL策略,包括迁移学习(TL)、自监督学习(SSL)、小样本学习与元学习、数据增强以及混合/轻量化模型等。这些方法旨在保留DL灵活性的同时,提高其在低数据条件下的泛化能力和稳定性。
ML与DL应用的关键药物发现任务
图1展示了药物发现与开发的整体流程,主要阶段以模块形式展示,每个阶段下列出了代表性方法与技术。机器学习和深度学习方法应用最活跃的任务以粗体标出。从靶点鉴定到Hit-to-Lead(H2L)及先导优化阶段,包括ADMET与毒性评估等关键任务,仍构成AI驱动药物开发工作流的核心内容,并得到持续研究和日益标准化的评估基准支持。图1所示流程应被理解为组织ML与DL任务应用的概念框架,而非现代药物发现中必须遵循的固定或强制性流程。

图1 药物发现与开发流程
药物发现中小数据的挑战
在药物发现中应用ML和DL的一个根本挑战,是高质量标注数据的有限性。这种稀缺性源于多方面因素:生成带标签的生物数据(如药效、毒性或多组学数据)既耗时又昂贵,需要复杂的实验和验证流程。此外,许多数据分散在不同机构之间,或被制药公司以专有形式封存,限制了对完整标注语料的获取。即便在常见疾病中,监管限制、患者隐私问题以及多源数据整合不足,也常导致数据孤岛和数据稀疏。除样本量和标注受限外,数据稀缺还表现为多种形式:不同实验室、检测类型或人群之间的分布差异会增加归一化难度并降低模型泛化能力;生物测量常引入噪声、批次效应或相互矛盾的标签;关键协变量(如遗传背景、微环境、合并用药)记录不完整可能带来潜在的混淆;筛选库中化学或生物多样性不足也会降低训练数据代表性,使模型偏向常见骨架或表型。因此,小数据不仅指样本数量少,也包括数据不完整、异质且存在缺陷。
小数据集为ML和DL模型带来显著挑战,尤其是在分子描述符或组学数据这类高维场景中。过拟合是主要问题,当特征数量远超样本数量时,模型容易学习到数据集特有的伪相关结构,而非可泛化的规律。此外,类别不平衡、域偏移和数据异质性也会进一步增加训练难度,并限制模型在不同任务或队列间的迁移能力。这些问题在罕见疾病研究和早期筛选中尤为关键,因为实验验证成本高昂。
应对小数据挑战的DL策略包括迁移学习、自监督学习、数据增强、小样本学习、混合模型,这些方法可提升生物医学任务中的泛化能力与性能。图2概述了在关键数据受限任务中使用的ML/DL策略。

图2 小数据条件下药物发现任务的ML策略
图3则提供了一个高层次的实用决策流程,用于判断何时传统ML已足够部署,以及当泛化能力仍受限时推荐适用于常见数据挑战的DL策略。该流程针对常见数据挑战进行设计,例如高维性、标签稀缺、类别不平衡、域偏移、异构多模态输入。

图3 小数据约束下药物发现模型选择的高层次实用工作流程
面向数据受限药物发现的传统机器学习
传统ML方法由于样本复杂度较低、假设空间更受约束,特别适合小数据场景。这类模型能够从稀疏、含噪或类别不平衡的数据集中学习,而这些情况在早期药物发现、罕见疾病建模以及企业专有数据中十分常见。其性能在很大程度上依赖特征工程质量,但其具有较高的透明度,且通常比深度神经网络更易验证和调试。传统ML模型在计算上也更高效,使其适用于资源有限的实验室或需要快速迭代的场景。这些特性使其成为标注数据有限且需要快速反馈的早期项目的理想选择。同时,围绕传统ML的成熟工具生态(如scikit-learn)以及集成的化学信息学平台,进一步提升了其在真实药物发现应用中的实用性。
传统ML方法包括SVM(基于间隔的分类器)、RF(基于集成树)、GBT(基于提升的集成模型)、k-NN(基于实例的学习)、NB(概率分类器)、LR(线性模型)。这些方法通常通过开源库(如scikit-learn)实现,并常与RDKit等化学信息学工具结合用于特征提取和预处理。表1概述了小数据药物发现环境中常用传统ML算法的优缺点。
表1 小数据药物发现中传统ML算法优缺点

表2总结了代表性的药物发现任务及其常用的传统ML模型,并列出了典型数据类型和样本规模。
表2 在小数据环境下应用于关键药物发现任务的传统ML算法

图4给出了代表性案例,展示传统ML方法在表2所述任务中的成功应用,并突出其在小数据条件下的表现。这些案例表明,即使在标注数据有限的情况下,传统ML方法仍可实现稳健且可解释的结果。

图4 小数据药物发现任务中传统ML的代表性案例
尽管具有诸多优势,传统ML方法仍存在若干限制,制约其在现代药物发现中的应用。最主要的问题是其性能高度依赖人工特征工程。特征设计需要领域专业知识,且可能遗漏数据中复杂的非线性模式。此外,传统模型缺乏端到端学习能力,这限制了其对原始或高维输入(如分子图、蛋白序列或转录组数据)的适应性。同时,若无大量人工干预或数据预处理,传统ML模型在跨领域泛化方面表现有限。其相对静态的建模方式也限制了其在从头分子生成或多模态学习等任务中的潜力。
面向数据受限药物发现的深度学习策略
尽管在小数据场景中,传统ML因其简单性、较低过拟合风险以及对优质特征工程的依赖而被广泛使用,但DL在药物发现中仍具有重要价值,原因包括:(1)DL模型擅长处理分子数据复杂、高维且非结构化的特性,能够直接从原始输入学习丰富表征,而无需大量人工特征工程。(2)DL可通过SSL和TL利用大量未标注数据,在标注样本稀缺时尤具价值。(3)DL支持通过生成模型进行数据增强与数据合成,有助于缓解数据稀缺并提升模型稳健性。(4)小样本学习和元学习框架为在极少监督下泛化到新任务提供了有前景的解决方案。(5)DL提供了可扩展的基础架构,可随着更大、更全面数据集的出现而持续提升。与此同时,用户友好的DL框架(如PyTorch和TensorFlow)以及领域专用资源(包括预训练分子和蛋白编码器,如MoleculeNet、基于ESM的模型)的日益普及,也推动了DL策略在小数据药物发现中的实际落地。
常用的小数据DL策略包括迁移学习、自监督学习、小样本学习与元学习、数据增强、混合与轻量化架构。表3概述了小数据药物发现中常用DL策略的优势与局限。
表3 小数据药物发现中DL策略优缺点

表4总结了代表性的药物发现任务及其常用DL策略,并列出相关数据类型和规模。
表4 在小数据环境下应用于关键药物发现任务的DL方法

图5给出了代表性案例,展示经过适配的DL方法如何在这些任务中有效应用,并突出其方法策略、数据规模及在小数据条件下的模型表现。这些结果表明,通过利用辅助信息和学习到的表示,经适配的DL方法能够有效处理有限标注数据。

图5 小数据药物发现任务中DL的代表性案例
未来方向
未来研究应优先开发跨多个药物发现任务的标准化、小数据领域相关基准,特别是当前在DL应用中代表性不足的任务。同时,仍有必要进一步完善和扩展混合建模框架,将深度学习的灵活性与传统机器学习的效率和可解释性相结合。与此同时,针对表格数据和多模态组学数据专门设计的架构,将是释放小规模、异质生物医学数据全部潜力的关键。此外,将结构化生物学知识(如代谢通路、蛋白质相互作用网络或基因本体)整合进ML与DL工作流程正在显示出提升泛化能力和降低数据需求的前景。对这些方法进行扩展和标准化,可能进一步增强其在小数据药物发现中的影响力。
除上述方法学进展外,还应认识到药物开发中一些高度相关的领域。例如,药物递送、药物制剂和药物联合用药对于将分子发现转化为有效疗法至关重要。将这些方面与小数据ML和DL策略相结合,是未来研究的重要机遇。
随着ML和DL模型逐步接近在药物发现中的实际部署,还必须重视伦理和监管问题。小数据集,尤其是在罕见疾病和分层患者队列中,可能包含采样偏差,从而限制预测的代表性和泛化能力。此外,将模型引入药物开发流程,需要满足监管机构对可重复性、透明度和决策可追溯性的要求。随着AI驱动方法日益影响早期药物发现决策,确保模型的公平性、稳健性以及符合新兴安全与可解释性标准,对于实现有意义的临床影响至关重要。
最后,要使这些模型成为现实药物发现中的实用工具,未来工作必须强调可重复性、自动化模型选择以及可解释输出。开源流程、透明的超参数报告以及与常用平台(如scikit-learn、RDKit、KNIME)的集成,将是降低采用门槛的关键。
参考链接:
https://doi.org/10.1016/j.addr.2025.115762
--------- End ---------