Nat. Med. | 构建面向 AI 驱动临床咨询的行为规范框架

DrugAI

发布于 2026-01-14 16:55:25

900

DRUGONE

临床人工智能能否借鉴自动驾驶的安全经验，构建安全的自主医疗咨询？

生成式人工智能（AI）的出现，使完全自主的临床咨询成为可能，但这一前景也同时引发了关于安全性与可信度的紧迫问题。尽管此类智能体展现出巨大潜力，其发展速度却明显快于行为规范的建立。研究人员认为，解决方案并不只存在于医学领域本身，而可以借鉴一个看似无关却高度相似的领域——自动驾驶汽车。正如自动驾驶行业通过“道路行为规范”建立了安全驾驶的共同语言，医疗系统同样需要一套基础性的咨询行为分类体系，以指导自主 AI 在临床环境中的安全部署。这一思路超越了仅以准确率为核心的评估方式。研究人员提出，应将“治疗（cure）”与“照护（care）”这两个概念形式化为可测试的框架，从而为自主医疗 AI 的应用建立明确的行为准则。

人类临床医生通过系统化的培养体系、执业考试和职业规范，来确保其在技术能力与人际能力两个层面均达到专业标准。相比之下，AI 尚不存在一套统一框架，用以界定在特定临床情境下哪些“咨询行为”是被接受或必须具备的。当前评估体系往往优先考察容易测试的指标，而非真正决定患者体验与安全的关键因素。多数评估仍集中在诊断准确率等性能指标上，却忽视了建立患者信任所必需的关系性能力。

目前，临床咨询的自动化阶段，与自动驾驶汽车发展的早期阶段高度相似。当年，自动驾驶研发主要聚焦于车辆控制参数，却忽视了与其他道路使用者之间的细微互动，因此缺乏对安全所需关键行为的整体理解。同样地，如果缺乏对“核心咨询行为”的基本认识，就无法在不同临床场景下比较或验证不同 AI 系统。要为 AI 建立类似“交通规则”的行为规范，首先必须理解人类临床实践中有效咨询所遵循的基本规则。

什么才是一场好的临床咨询？

关于人类医生如何开展咨询，已有大量研究成果。早在 1957 年，Balint 提出“医生本身即是药物”的理念，强调医患关系本身就是一种重要的治疗手段。这一认识深刻影响了现代医学教育，使临床培训不仅关注诊断能力，也重视以患者为中心的沟通方式。

在医学教育中，结构化评估体系将咨询过程划分为多个阶段，例如启动咨询、信息采集、解释与计划制定，并强调在整个过程中持续建立医患关系。同时，基于观察的行为编码体系也被用于细致刻画咨询互动，系统性记录医生与患者在提问、信息提供和情感回应等方面的行为。

这些模型的一个共同点在于：同时强调技术能力与人际能力。在实践中，这通常体现为两类行为：

“治疗行为（cure behaviors）”：包括采集症状、制定治疗方案和做出临床决策等技术性任务；
“照护行为（care behaviors）”：包括回应患者情绪、让患者参与决策、建立治疗性关系等同样关键的工作。

AI 评估中的关键缺口

尽管人类临床实践已有成熟框架，当前 AI 的评估仍主要集中在技术层面。即便在对话式应用中，评估重点也多放在医学知识与推理能力上，而治疗性关系的构建能力几乎未被系统评估。已有证据表明，AI 在对话情境中的诊断能力甚至可能下降。考虑到以患者为中心的咨询与健康结局和患者满意度之间存在明确关联，这一缺口尤为令人担忧。

研究人员认为，若 AI 要在临床中产生实质影响，评估框架必须同时覆盖技术能力与关系能力，而不能仅依赖诊断准确率或答案相关性等单一指标。

共享安全语言的力量：来自自动驾驶的启示

在自动驾驶行业早期，开发者、监管机构和研究人员同样难以就“什么是安全驾驶”达成共识。缺乏对车道保持、并道或避障等核心行为的标准定义，使得系统间的比较和安全沟通几乎不可能。正是在这一背景下，自动驾驶行为分类体系逐步建立，并形成了行业通用标准。

通过定义核心驾驶行为，自动驾驶行业得以建立统一的安全基准，并在模拟和真实场景中系统评估安全性。尽管临床咨询不像交通规则那样具备清晰的量化标准，但这种通过行为分类建立共享语言的路径，为医疗 AI 提供了重要启示。

面向 AI 临床咨询的行为分类框架

基于上述思路，研究人员提出构建 AI 临床咨询行为规范的第一步：一个双层行为分类体系。

第一层是技术性“治疗（cure）行为”，包括信息采集、诊断生成和建议提供等；
第二层是关系性“照护（care）行为”，包括识别患者困扰、澄清关切和表达同理心等。

这些行为在医疗中具有普遍意义，但其具体表现会随情境而变化。例如，临终关怀需要更深层次的情感支持，而术前讨论则强调清晰、结构化的信息交流。研究人员提出了一组可测试的基础行为，用以示范如何将这两类行为转化为可评估框架。

将行为分类付诸实践

要将该分类体系转化为可操作的评估框架，需要引入情境调节因素。首先，不同临床情境对行为组合的要求不同。一些看似简单的随访咨询，可能在“治疗行为”上具有高风险；而某些情绪负担沉重的咨询，则在技术层面高度结构化，却对“照护行为”提出更高要求。其次，系统性能必须在不同患者群体中得到验证，包括不同文化背景、健康素养、年龄和交互需求。这也涉及责任划分，例如 AI 是否需要确认患者理解程度，以及在何种程度上可以假设患者提供的信息是可靠的。在这一框架下，风险管理可更系统地展开，避免在追求技术完备性的同时，忽视对患者体验和信任的潜在伤害。

前行之路

研究人员主张，通过明确临床咨询所需的核心行为，为安全、可信的自主医疗咨询奠定基础。共享的行为语言有助于系统评估、监管认证以及建立合理预期。挑战依然存在，尤其是在如何定义和测量同理心、关系建立等关系性行为方面。这需要医学、工程学之外的学科参与，包括社会学、伦理学和语言学。

随着大模型和智能体 AI 快速融入临床流程，及早建立这一框架，有助于推动 AI 不仅在技术上可靠，也在情感与伦理层面值得信赖。正如自动驾驶的安全标准为人类与机器驾驶者设定了清晰边界，临床咨询行为的系统分类也有望成为未来人本医疗 AI 的安全基石。

整理 | DrugOne团队

参考资料

Lim, E., Thirunavukarasu, A., He, Y.V. et al. Building a code of conduct for AI-driven clinical consultations. Nat Med (2026).

https://doi.org/10.1038/s41591-025-04068-w

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-01-07，如有侵权请联系 cloudcommunity@tencent.com 删除

nat