首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Med. | AI驱动的LifeClock:在症状出现前多年预测疾病的新型生物钟

Nat. Med. | AI驱动的LifeClock:在症状出现前多年预测疾病的新型生物钟

作者头像
DrugAI
发布2026-01-06 13:41:42
发布2026-01-06 13:41:42
1720
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

老龄化研究长期集中于成年阶段的衰老时钟,然而对于覆盖整个生命过程、尤其是婴幼儿与儿童时期的生物钟理解仍存在重大空白。研究人员提出了 LifeClock,一种基于常规电子病历与实验室检测数据的全生命周期生物钟模型,可在所有生命阶段预测个体的生物年龄。研究团队整合了来自 9,680,764 名个体、24,633,025 次临床随访 的异质性纵向数据,借助时间序列 Transformer 模型 EHRFormer,将虚拟患者表示映射到潜在空间,从而以高精度捕捉发育与衰老动态,建立跨年龄段的生物时钟。结果显示,儿童期和成年期呈现出截然不同的生物时钟特征:

  • 儿童时钟与生长发育密切相关,能准确预测营养不良、生长迟缓、发育异常等主要儿科疾病;
  • 成人时钟与老化过程显著相关,可预测糖尿病、肾衰、脑卒中及心血管疾病风险。
  • LifeClock 区分了儿童发育与成人老化的本质差异,为精准健康管理提供了新框架。

衰老是一个复杂的多层次过程,涵盖分子、细胞、器官乃至全身系统的功能变化。传统的年龄指标反映的是时间流逝,而生物年龄(BA)则衡量生物系统相对于同龄个体的功能状态。生物年龄偏离时间年龄(CA)常提示疾病风险与健康衰退。早期研究依赖 DNA 甲基化、转录组等组学特征来估算 BA,而近年的多模态影像学与临床数据拓展了生物钟的维度。然而,这些研究主要聚焦成年人,对婴幼儿及儿童时期的生理“成熟时钟”缺乏系统刻画。儿童机体的快速生理变化体现的是发育进程而非衰老累积损伤,因此建立跨生命周期的统一模型具有重要意义。

方法

研究人员构建了一个 Transformer 架构的时间序列模型 EHRFormer,以整合大规模纵向电子病历(EHR)和实验室检测指标。模型通过多任务自监督学习完成特征重建、缺失值推断、下一次随访预测及批次效应消除,生成个体的数字化健康表征。数据来源包括中国健康老龄化调查(CHAI)及英国生物样本库(UK Biobank)等多队列共 约2500万条记录。

EHRFormer 在训练后用于回归预测时间年龄(CA),预测值即作为生物年龄(BA)的估计结果。模型进一步区分儿童期(<18岁)与成年期(≥18岁),以针对不同阶段的生理特征分别建立发育时钟与老化时钟。

结果

构建基于血液检测的全生命周期生物钟

研究人员从184个临床指标中提取特征,利用双随机掩码策略处理缺失数据并减少噪声。EHRFormer 在内部验证集上表现出高度准确性(MAE 约1.07–5.96,R²>0.8),可仅通过常规化验数据预测年龄。分析揭示了两种显著不同的时钟模式:

  • 儿童阶段的时钟主要受 AST、肌酐和总蛋白等指标驱动;
  • 成年阶段的时钟则与尿素、白蛋白和红细胞分布宽度等指标相关。

不同性别间模型性能稳定,但特征贡献略有差异。跨队列验证(UK Biobank)进一步证明了模型的普适性。

图1|EHRFormer 的架构与纵向临床数据分析应用

LifeClock 预测儿童与成人疾病风险

基于 EHR 表征进行主成分与 UMAP 降维后,研究人员发现年龄组之间可自然分群,提示EHR数据蕴含显著的年龄信息。通过 Leiden 聚类共得到64个亚群。研究人员计算个体的生物年龄差(BA–CA),并结合疾病发生率分析发现:

在同一簇中,生物年龄偏高(加速老化)的个体当前与未来的疾病风险均显著升高。

在儿童群体中,不同簇对应的疾病风险各异,例如:

  • 簇14:垂体功能亢进与肥胖风险分别提升15.36倍与11.07倍;
  • 簇12:疝气风险上升10倍;
  • 簇3:病毒性脑膜炎风险上升4.7倍;
  • 簇8:性早熟风险显著上升。

儿童发育时钟可区分发育迟缓与发育提前两类特征性疾病,表现出生理意义上的加速或减缓。

在成人群体中:

  • 簇20 个体的肾衰竭风险上升37.7倍、低血压风险上升9倍;
  • 簇16、52、20 的糖尿病风险分别增加约3–4倍。

这些结果表明模型能捕获潜在的疾病前状态。

图2|全生命周期生物年龄(BA)预测模型及儿童与成人阶段的关键特征

图3|基于EHRFormer 表征的患者聚类揭示当前与未来健康状态

特征与疾病模式解释

进一步分析显示,不同高风险簇具有特异的生理信号:

  • 儿童簇5 与免疫相关疾病(如阑尾炎、溃疡性结肠炎)相关,特征为高 IL-6、IL-8、CRP 和白细胞数;
  • 成人簇44 与心肺疾病风险高度相关,表现为高肌钙蛋白T和血钾、低血氧饱和度。

这说明聚类结果不仅反映统计分组,还对应生物学机制。

疾病预测性能

研究人员在疾病预测任务中微调EHRFormer,并将个体分为高、中、低风险组。结果显示模型在当前疾病诊断与未来风险预测中均表现出色:

  • 诊断准确率:心血管疾病AUC高达0.95–0.98,神经系统疾病(帕金森、多发性硬化)AUC约0.94–0.96;
  • 未来风险预测:各病种AUC普遍≥0.8,五年和十年发病预测AUC分别为0.80–0.91。

相比 RNN 与 XGBoost,EHRFormer 在所有任务上均取得更高AUROC(例如糖尿病预测0.911 vs 0.837/0.876)。外部验证(CHAI-External及UK Biobank)结果一致,表明模型具有优异的跨机构泛化能力。

此外,研究人员将0–10岁儿童与≥40岁成人分层后进行累积风险分析:

  • 儿童阶段,高风险组未来肥胖、脑膜炎、哮喘等疾病的发病率显著更高;
  • 成年阶段,高风险组心律失常、冠心病、糖尿病、卒中等疾病风险亦显著升高。

这表明早期EHR数据可用于长期健康风险评估。

图4|EHRFormer 在疾病诊断与风险预测中的表现及累积风险分析

讨论

该研究首次基于常规临床数据实现了跨生命期的生物时钟建模,揭示了从婴儿到老年的连续发育-衰老轨迹。EHRFormer 不仅能准确估计生物年龄,还能通过聚类解析出具有生物学意义的亚群,实现疾病风险的早期识别与解释。

在儿童中,模型区分了从性早熟到发育迟缓的内分泌谱系;在成年人中,模型识别出代谢、免疫及心肺系统的功能衰退亚型。相比依赖昂贵多组学数据的传统模型(如OMICmAge),EHRFormer 仅需常规实验室数据即可获得高精度预测,具有更高的临床可推广性。

该模型的自回归结构可捕捉长期健康变化,实现个体全生命周期的动态表征。研究人员指出,未来可结合可穿戴设备、云端病历及环境传感数据,使生物钟从静态估计转向实时更新,从而推动个性化健康管理、疾病预警与精准干预。

图5|基于 EHRFormer 的全生命周期生物钟潜在空间建模框架

整理 | DrugOne团队

参考资料

Wang, K., Liu, F., Wu, W. et al. A full life cycle biological clock based on routine clinical data and its impact in health and diseases. Nat Med (2025).

https://doi.org/10.1038/s41591-025-04006-w

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档