Nat. Biotechnol. | AI可提前数年预测1000多种疾病，而且还能预测更多

DrugAI

发布于 2026-03-03 17:34:09

1080

DRUGONE

计算机模型正在展现出前所未有的潜力：它们可以结合个人的临床记录与当前健康数据，预测未来可能发生的疾病以及治疗效果。这是否意味着医学即将进入真正的预防时代？

去年9月，由欧洲生物信息研究所和德国癌症研究中心牵头的研究团队在《Nature》发表论文，引发广泛关注。他们开发了一种名为 Delphi-2M 的人工智能模型，能够基于电子健康记录模拟个人未来数十年的健康轨迹，并预测某种疾病发生的概率。该模型在英国生物样本库约40万份医疗记录上训练，识别疾病发生与进展的模式，从而可以在英国和丹麦人群中提前20年预测多达1200种疾病。

这一模型不仅分析个人病史，还会综合吸烟情况、体重指数、饮酒等健康影响因素。

过去五年间，越来越多研究团队开始尝试利用大规模人群数据训练AI模型，以预测个体未来健康状态。这类研究既包括像Delphi-2M这样的学术项目，也包括多家初创公司，例如以色列的Pheno.AI、美国的RespondHealth，以及谷歌、罗氏等大型科技和制药企业。

这些AI工具有望彻底改变医疗体系，使政府和医疗机构能够更合理配置有限资源，同时帮助制药企业更高效地开展临床试验。

另一类模型则致力于构建所谓的“数字孪生”——即患者的虚拟健康副本，用于测试不同治疗方案并辅助临床决策。一位电子病历公司工程师表示，最令人兴奋的地方在于医疗决策将真正实现个体化，而不再停留在抽象层面。

如今，临床研究人员拥有海量电子健康记录（EHR）数据，这些记录详细记录了患者从初次诊断到疾病进展以及治疗结果的全过程。例如，Epic公司构建的Cosmos数据库已经汇集了超过3亿名患者的匿名医疗记录。同时，英国生物样本库和美国“All of Us”等国家级研究项目也为这些数据补充了基因组信息和生理指标。

然而，尽管数据规模巨大，这些信息长期未能转化为可操作的预测工具，这让精准医学研究者颇为沮丧。一些学者甚至表示，花费巨大资源收集数据却无法充分利用，几乎是一种浪费。

近年来，深度学习技术为这一问题提供了新的突破口。当前多数医学预测模型基于 Transformer架构——这正是ChatGPT等大语言模型的核心技术。Transformer会将数据拆分为基本单元（token），并通过注意力机制识别最相关的信息。

在医学预测模型中，这些token不仅可以是文字，还可以包括：

基因序列
检验指标
诊断编码
各类临床数据

通过这种方式，模型能够发现隐藏的模式，例如某些风险因素组合与未来疾病之间的关联。就像ChatGPT在互联网文本上训练成为通用对话系统一样，医学大模型也正在电子健康记录等数据上训练，目标是构建可供医生查询医学洞察的“基础模型”。罗氏研究人员开发的 DT-GPT 平台已经能够利用患者匿名医疗记录预测疾病进展或治疗反应，在肺癌和阿尔茨海默病患者中取得优于传统方法的表现。

早期医疗预测模型通常依赖结构化数据，例如标准化诊断编码和检验指标。但现实中，超过80%的医疗信息存在于医生笔记等非结构化文本中，而大语言模型恰好擅长处理这类复杂文本。

此外，研究人员也在尝试将健康记录与其他数据整合，例如基因组信息。谷歌研究团队最近的一项工作结合“All of Us”项目的健康记录与遗传数据，通过多基因风险评分预测疾病风险。研究发现，对于医疗记录较少的个体，引入基因数据尤其有价值。

与此同时，Pheno.AI团队在“人类表型项目”中收集了近1.5万名健康成年人的极其丰富数据，包括：

临床检测
多组学分析
全身扫描
微生物组
运动与饮食记录
职业问卷
体能测试

这些深度表型数据正在用于构建更精准的健康预测模型。

不同团队的研究方向也有所不同。

Delphi-2M等模型更像天气预报系统，为未来疾病风险提供概率预测。而罗氏等公司则更关注针对特定疾病构建更精细的生理模拟模型，用于预测治疗反应或疾病进展。

英国的Foresight-England项目则试图预测COVID-19感染后的长期健康后果，覆盖约4万种潜在医疗事件。不过，预测时间越长，模型不确定性也越高。例如，研究发现一年后的预测已经开始出现噪声，而几十年后的预测可信度自然更低。

与此同时，这类AI系统仍面临多重挑战。

首先是隐私问题。医疗数据极其敏感，一些公司选择只开放模型接口而不提供原始数据。其次是数据规模问题。研究者认为，要实现真正的“零样本”医学预测，至少需要50万人规模的数据训练集。此外，模型还必须覆盖多样化人群，否则可能无法推广到不同国家或族群。

另一个关键问题是可解释性。

医生通常可以解释诊断依据，而许多AI模型仍被视为“黑箱”。一些团队正在尝试通过推理步骤展示模型决策过程，或结合医学知识图谱作为约束，以保证预测符合医学逻辑。

尽管个体疾病预测仍距离临床应用有一定距离，但AI健康模型已经在其他领域展现出更现实的应用前景。

例如：

预测医院资源需求
评估床位使用率
优化MRI设备配置

在药物研发领域，数字孪生模型还可能用于：

设计临床试验纳入标准
提前预测不良反应
优化患者分组

一些公司甚至正在探索利用AI预测患者对GLP-1减肥药物的反应。

虽然这些技术距离全面临床部署仍需时间，但研究者普遍认为，AI医疗预测正在开启一个新的时代。一位研究负责人表示，这种感觉就像25年前基因组学刚兴起时一样——面对长期存在的医学难题，人类终于拥有了全新的技术手段。

整理 | DrugOne团队

参考资料

Eisenstein, M. AI tool predicts over 1,000 diseases years before they happen — and more are on the way. Nat Biotechnol 44, 163–166 (2026). https://doi.org/10.1038/s41587-026-03019-1
Shmatko, A., Jung, A.W., Gaurav, K. et al. Learning the natural history of human disease with generative transformers. Nature 647, 248–256 (2025). https://doi.org/10.1038/s41586-025-09529-3