Fig. 1: Study flow diagram.

- 图片说明
◉ 这项研究包括92名正在执业的主治医师和住院医师,他们接受过内科、家庭医学或急诊医学的培训。◉ 提出了五个由专家开发的病例,并使用德尔菲法创建了评分标准。◉ 医生们被随机分配到两个组,一组使用GPT-4通过ChatGPT加上传统资源(例如,UpToDate、Google),另一组仅使用传统资源。◉ 主要结果是在专家开发的评分标准上两组总分的差异。◉ 次要结果包括特定领域的分数和每个病例所花费的时间。◉ 数据来源
Table 1 Participant characteristics according to randomized group 表1 随机分组后的参与者特征

管理绩效
Table 2 Comparisons of the primary and secondary outcomes for physicians with LLM and with conventional resources only (scores standardized to 0–100) 表2 医师使用LLM和仅使用传统资源的主要和次要结果比较(分数标准化为0-100)

Fig. 2: Comparison of the primary outcome for physicians with LLM and with conventional resources only (total score standardized to 0–100).

- 图片说明
◉ 九十二名医生(46名随机分配到LLM组和46名随机分配到传统资源组)完成了375个病例(LLM组中有178个,传统资源组中有197个)。箱线图的中心代表中位数,边界代表第一和第三四分位数。须线代表中心1.5倍四分位距范围内的最远数据点。◉ 无额外句子。
Fig. 3: Comparison of the primary outcome according to GPT alone versus physician with GPT-4 and with conventional resources only (total score standardized to 0–100).

- 图片说明
◉ GPT-alone 组代表由研究团队提示模型完成五个案例,每个案例提示模型五次,总共得到25个观察结果。◉ 拥有 GPT-4 的医师组包括46名参与者,完成了178个案例,而拥有传统资源的医师组包括46名参与者,完成了197个案例。◉ 箱线图的中心表示中位数,边界表示第一和第三四分位数。◉ 须触线表示中心点外最远的数据点,在1.5倍四分位距(IQR)范围内。
问题领域子群
时间
Fig. 4: Comparison of the time spent per case by physicians using GPT-4 and physicians using conventional resources only.

- 图片说明
◉ 九十二名医生(46名随机分配到LLM组和46名随机分配到传统资源组)完成了375个病例(LLM组中有178个,传统资源组中有197个)。箱线图的中心代表中位数,边界代表第一和第三四分位数。须线代表中心1.5倍四分位距范围内的最远数据点。◉ 无附加句子
响应长度
可能性和伤害程度
参与者
临床病例描述构建
评分标准的开发
研究设计
LLM专用提示设计
评分标准验证
研究结果
统计方法
报告摘要
[ul]- 17 February 2025 A Correction to this paper has been published: https://doi.org/10.1038/s41591-025-03586-x