Nat. Mach. Intell. | 训练数据构成决定机器学习的泛化能力与生物学规律发现

DrugAI

发布于 2026-01-06 11:21:24

1050

文章被收录于专栏：DrugAIDrugAI

DRUGONE

机器学习在生命科学中的广泛应用，依赖于模型从训练数据中学习规律并推广到未知场景。然而，训练数据的构成对模型性能的影响往往被忽视。研究人员系统评估了不同训练数据分布对模型泛化能力和生物学规律发现的作用。结果表明，数据构成不仅决定了模型在测试集上的表现，还直接影响其是否能够揭示潜在的生物学机制。研究人员提出了一种系统框架，用于设计和评估训练数据，以提升机器学习在生物学问题中的解释性与可迁移性。

机器学习已成为解析复杂生物系统和预测分子特性的关键工具。然而，模型的成功往往依赖于训练数据的分布，而这在生物学任务中尤为重要。原因在于：

数据异质性：不同实验条件、物种或技术平台带来的差异，可能导致模型过拟合或偏差；
任务依赖性：预测任务（如蛋白质结构、基因表达或反应活性）往往依赖特定的特征分布；
规律发现的挑战：机器学习模型不仅是预测工具，还被寄予揭示潜在生物学规律的期望。

因此，理解和优化训练数据构成，是确保模型在生命科学中既能实现高效预测，又能发现新规律的前提。

结果

训练数据构成与模型泛化性能

研究人员首先分析了不同数据构成对模型泛化能力的影响。通过控制数据分布的均衡性和多样性，结果表明：

均衡性：数据类别比例失衡时，模型往往偏向于多数类，导致对少数类表现不佳；
多样性：涵盖更多生物学变异的数据集，显著提升了模型对新场景的适应能力；
代表性：若训练数据缺乏关键生物学特征，模型即使在测试集中表现良好，也无法解释潜在规律。

这说明训练数据构成是影响模型稳健性和生物学发现能力的核心因素。

数据分布对规律发现的影响

研究人员进一步探讨了数据分布如何影响模型识别潜在生物学机制。通过对比不同训练集，发现：

结构规律：在蛋白质或分子预测任务中，若训练数据覆盖了广泛的结构多样性，模型能够更准确地提炼出结构-功能关系；
功能规律：在基因表达建模中，包含多组织或多条件数据的训练集，使模型更容易发现普适性调控规律；
跨任务泛化：当训练数据在多任务间共享特征时，模型能够迁移规律，从而在未知任务中表现更优。

这些结果揭示了数据设计在规律发现中的关键地位。

案例研究：跨领域验证

为了验证这一结论，研究人员进行了多个生物学任务案例研究：

蛋白质结构预测：当训练集只覆盖有限家族时，模型对新蛋白质的预测准确性明显下降；
化学反应预测：在反应类型不均衡的情况下，模型难以捕捉稀有反应的本质规律；
多组学建模：若不同组学数据未能均衡采样，模型在某些通路的预测结果会失真，难以解释生物学机制。

这些实验均显示出，数据构成的设计直接决定了模型能否发现真实的生物学规律。

讨论

研究人员强调，训练数据构成不仅是影响模型性能的技术细节，更是决定其科学价值的关键因素。主要结论包括：

数据决定模型能力边界：再强大的模型也无法超越其训练数据提供的信息；
规律发现依赖数据覆盖：要揭示普适的生物学规律，训练数据必须覆盖足够的多样性与代表性；
数据设计应与任务目标一致：在不同任务中，训练数据需要根据预测目标与规律发现需求进行定制化设计；
可推广性框架：研究人员提出的分析框架，为其他生物学与医学任务提供了可借鉴的方法。

同时，研究人员也指出该研究的局限性：数据集仍有限，未来需在更大规模和跨平台的数据上进一步验证；此外，如何在保证多样性的同时控制噪声，是下一步需要解决的重要问题。

总体而言，该研究凸显了训练数据构成在机器学习中的核心地位。通过合理设计和评估训练数据，研究人员不仅能够提升模型的泛化性能，还能真正推动生物学规律的发现。这一结论为未来生物学与人工智能结合的研究指明了方向。

整理 | DrugOne团队

参考资料

Ursu, E., Minnegalieva, A., Rawat, P. et al. Training data composition determines machine learning generalization and biological rule discovery. Nat Mach Intell 7, 1206–1219 (2025).

https://doi.org/10.1038/s42256-025-01089-5

内容为【DrugOne】公众号原创｜转载请注明来源

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-08-20，如有侵权请联系 cloudcommunity@tencent.com 删除

模型