Nat. Med. | 用于复杂心脏病诊疗的大型语言模型

DrugOne

发布于 2026-03-02 17:30:16

670

文章被收录于专栏：DrugOneDrugOne

DRUGONE

全球范围内专科医疗资源严重短缺，尤其在心脏病领域，及时、精准的管理直接决定患者预后。研究人员评估了一种名为 Articulate Medical Intelligence Explorer（AMIE）的基于大型语言模型的实验性医疗人工智能系统，探讨其在复杂心脏病诊疗中的辅助价值。研究设计为一项随机对照试验，纳入107例疑似遗传性心肌病的真实世界病例，由9名普通心脏科医生在有无 AMIE 辅助的情况下完成临床评估。三名盲法亚专科心脏病专家依据十个维度的评价标准，对分诊、诊断及管理质量进行评分。结果显示，整体而言，专家更倾向于 AMIE 辅助的评估结果。与单独医生相比，AMIE 辅助组在管理方案与诊断检查方面获得更高偏好比例，并显著减少临床重大错误与内容遗漏。同时，医生报告在超过一半病例中，AI 提升了评估质量并节省了时间。本研究为大型语言模型在复杂专科临床场景中的应用提供了随机对照试验级别证据。

全球医疗体系面临专科医生不足的问题，复杂且罕见疾病的诊疗尤为困难。在遗传性心肌病领域，及时识别与干预可显著降低猝死风险，但许多地区缺乏专科中心，导致大量患者未被诊断。大型语言模型近年来在医学问答、文本总结等方面表现突出，但在真实专科场景中的系统性随机评估仍然稀缺。研究人员因此选择遗传性心肌病这一高风险、强依赖多模态检查的领域，检验大型语言模型是否能够提升普通心脏科医生的决策质量。

研究设计与数据集构建

研究人员构建了一项完全盲法、平衡设计的随机对照试验。数据来源于斯坦福遗传性心血管疾病中心的真实患者，包括心电图（ECG）、超声心动图（TTE）、心脏磁共振（CMR）、动态心电监测、心肺运动试验（CPX）等多模态检查文本报告及原始数据。每个病例由两名普通心脏科医生分别评估，其中一名随机分配使用 AMIE 辅助。

医生需完成标准化评估表，包括总体印象、是否需转诊、最可能诊断、进一步检查建议及管理方案。亚专科专家在盲法条件下对两组结果进行A/B直接偏好比较，并对错误、遗漏、推理质量与偏倚等方面进行单独评分。

图1：研究设计流程。

普通心脏科医生对AI辅助的主观评价

多数医生对 AI 融入临床流程持积极态度。在57%的病例中，医生认为 AI 改善了临床评估；在超过50%的病例中，AI 增强了决策信心；约50%的病例报告节省时间。AI 幻觉现象发生率较低，多数情况下不存在明显错误或遗漏。医生指出，AI 有助于补充罕见疾病知识、拓展诊断思路并提高效率，但偶尔存在过度自信或信息冗余等问题。