Reader

两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估

| 机器之心 | Default
图片

编辑 | 白菜叶

大型语言模型 (LLM) 正在日益改变医疗应用。

然而,像 GPT-4o 这样的专有模型在临床应用方面面临巨大障碍,因为它们无法在医疗机构内部部署,同时也不符合严格的隐私法规。

DeepSeek 等开源 LLM 展示的强悍性能,为科学家提供了一种有前景的替代方案。因为它们可以被部署在本地,医院的工作人员可以用本地数据对它们进行高效的微调。

DeepSeek 在临床决策中的能力

为了证明 DeepSeek-V3 和 DeepSeek-R1 的临床实用性,来自德国的研究团队(Otto-von-Guericke University,Charite - University Medicine Berlin等)将其在临床决策支持任务中的表现与专有 LLM(包括 GPT-4o 和 Gemini-2.0 Flash Thinking Experimental)进行了对比。

相关论文《Benchmark evaluation of DeepSeek large language models in clinical decision-making》,于 2025 年 4 月 23 日发布在《Nature Medicine》。

图片

论文链接:https://www.nature.com/articles/s41591-025-03727-2

研究人员使用 125 例具有足够统计功效的患者病例,涵盖了广泛的常见病和罕见病,发现 DeepSeek 模型的表现与医学专用 LLM 相当,在某些情况下甚至更佳。

这项研究表明,开源 LLM 可以为安全的模型训练提供可扩展的途径,从而在符合数据隐私和医疗保健法规的情况下,实现现实世界的医疗应用。

图片

图示:考虑诊断和治疗的 LLM(GPT-4o、DeepSeek-R1、DeepSeek-V1 和 Gemini-2.0)在 Gem2FTE 实验中的  Likert 评分。(来源:论文)

DeepSeek 在医学领域的推理能力

虽然如此,但是在医学领域 DeepSeek 的能力推理能力尚未得评估。

在同期发表在 《Nature Medicine》上的另一篇论文《Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning》中,美国西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的研究人员测试了 DeepSeek 在临床医学领域的推理能力。

图片

论文链接:https://www.nature.com/articles/s41591-025-03726-3

本研究评估了 DeepSeek-R1、ChatGPT-o1 和 Llama 3.1-405B 这三个 LLM 执行四项不同医学任务的能力:回答美国医师执照考试 (USMLE) 的问题、基于文本的诊断和治疗案例进行解释和推理、根据 RECIST 1.1 标准进行肿瘤分类以及提供跨多种模式的诊断影像报告摘要。

图片

图示:概述了三种大型语言模型在执行四项指定医学任务方面的表现。缩写:pt:分值,PD:疾病进展,PR:部分缓解,N:数量。(来源:论文)

在 USMLE 测试中,DeepSeek-R1(准确率 = 0.92)的表现略逊于 ChatGPT-o1(准确率 = 0.95;p = 0.04),但优于 Llama 3.1-405B(准确率 = 0.83;p < 10^-3)。

在基于文本的案例挑战中,DeepSeek-R1 的表现与 ChatGPT-o1 相似(准确率分别为 0.57 vs 0.55;p = 0.76 和 0.74 vs 0.76;p = 0.06,使用《New England Journal of Medicine》和《Medicilline》数据库)。

图片
图片

图示:比较三款 LLM 在各种医学任务中的表现。对三款 LLM(ChatGPT-o1、DeepSeek-R1 和 Llama 3.1-405B)在以下医学任务中的表现进行了评估:美国医师执照考试 (USMLE) 试题、诊断问题(NEJM 和 Medicilline 数据库中)、推理(BMJ 和 NEJM 数据库中)、放射学报告中的 RECIST 1.1 分类以及报告摘要(MIMIC-III 和私有数据集)。(来源:论文)

对于 RECIST 分类,DeepSeek-R1 的表现也与 ChatGPT-o1 相似(0.73 vs 0.81;p = 0.10)。DeepSeek 提供的诊断推理步骤被认为比 ChatGPT 和 Llama 3.1-405B 提供的步骤更准确(平均 Likert 分数分别为 3.61、3.22 和 3.13,p = 0.005 和 p < 10^−3)。

然而,DeepSeek-R1 提供的汇总成像报告的整体质量低于 ChatGPT-o1 提供的报告(5 分制 Likert 分数:4.5 vs 4.8;p < 10^−3)。

这项研究展示了 DeepSeek-R1 LLM 在医疗应用方面的潜力,但也强调了需要进一步提升的方向。

图片

图示:AI 与医疗。(来源:AI 生成)

总而言之,科学家们在不断探索 AI 在医疗决策、医学诊断中的应用,已有的评估结果表明,AI 在这些领域的使用正变得越来越可靠、越来越安全。相信在不久的将来,AI 将成为医疗体系中不可或缺的强大助力,为全球的患者造福!