编辑 | 白菜叶
大型语言模型 (LLM) 正在日益改变医疗应用。
然而,像 GPT-4o 这样的专有模型在临床应用方面面临巨大障碍,因为它们无法在医疗机构内部部署,同时也不符合严格的隐私法规。
DeepSeek 等开源 LLM 展示的强悍性能,为科学家提供了一种有前景的替代方案。因为它们可以被部署在本地,医院的工作人员可以用本地数据对它们进行高效的微调。
DeepSeek 在临床决策中的能力
为了证明 DeepSeek-V3 和 DeepSeek-R1 的临床实用性,来自德国的研究团队(Otto-von-Guericke University,Charite - University Medicine Berlin等)将其在临床决策支持任务中的表现与专有 LLM(包括 GPT-4o 和 Gemini-2.0 Flash Thinking Experimental)进行了对比。
相关论文《Benchmark evaluation of DeepSeek large language models in clinical decision-making》,于 2025 年 4 月 23 日发布在《Nature Medicine》。
论文链接:https://www.nature.com/articles/s41591-025-03727-2
研究人员使用 125 例具有足够统计功效的患者病例,涵盖了广泛的常见病和罕见病,发现 DeepSeek 模型的表现与医学专用 LLM 相当,在某些情况下甚至更佳。
这项研究表明,开源 LLM 可以为安全的模型训练提供可扩展的途径,从而在符合数据隐私和医疗保健法规的情况下,实现现实世界的医疗应用。
图示:考虑诊断和治疗的 LLM(GPT-4o、DeepSeek-R1、DeepSeek-V1 和 Gemini-2.0)在 Gem2FTE 实验中的 Likert 评分。(来源:论文)
DeepSeek 在医学领域的推理能力
虽然如此,但是在医学领域 DeepSeek 的能力推理能力尚未得评估。
在同期发表在 《Nature Medicine》上的另一篇论文《Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning》中,美国西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的研究人员测试了 DeepSeek 在临床医学领域的推理能力。
论文链接:https://www.nature.com/articles/s41591-025-03726-3
本研究评估了 DeepSeek-R1、ChatGPT-o1 和 Llama 3.1-405B 这三个 LLM 执行四项不同医学任务的能力:回答美国医师执照考试 (USMLE) 的问题、基于文本的诊断和治疗案例进行解释和推理、根据 RECIST 1.1 标准进行肿瘤分类以及提供跨多种模式的诊断影像报告摘要。
图示:概述了三种大型语言模型在执行四项指定医学任务方面的表现。缩写:pt:分值,PD:疾病进展,PR:部分缓解,N:数量。(来源:论文)
在 USMLE 测试中,DeepSeek-R1(准确率 = 0.92)的表现略逊于 ChatGPT-o1(准确率 = 0.95;p = 0.04),但优于 Llama 3.1-405B(准确率 = 0.83;p < 10^-3)。
在基于文本的案例挑战中,DeepSeek-R1 的表现与 ChatGPT-o1 相似(准确率分别为 0.57 vs 0.55;p = 0.76 和 0.74 vs 0.76;p = 0.06,使用《New England Journal of Medicine》和《Medicilline》数据库)。
图示:比较三款 LLM 在各种医学任务中的表现。对三款 LLM(ChatGPT-o1、DeepSeek-R1 和 Llama 3.1-405B)在以下医学任务中的表现进行了评估:美国医师执照考试 (USMLE) 试题、诊断问题(NEJM 和 Medicilline 数据库中)、推理(BMJ 和 NEJM 数据库中)、放射学报告中的 RECIST 1.1 分类以及报告摘要(MIMIC-III 和私有数据集)。(来源:论文)
对于 RECIST 分类,DeepSeek-R1 的表现也与 ChatGPT-o1 相似(0.73 vs 0.81;p = 0.10)。DeepSeek 提供的诊断推理步骤被认为比 ChatGPT 和 Llama 3.1-405B 提供的步骤更准确(平均 Likert 分数分别为 3.61、3.22 和 3.13,p = 0.005 和 p < 10^−3)。
然而,DeepSeek-R1 提供的汇总成像报告的整体质量低于 ChatGPT-o1 提供的报告(5 分制 Likert 分数:4.5 vs 4.8;p < 10^−3)。
这项研究展示了 DeepSeek-R1 LLM 在医疗应用方面的潜力,但也强调了需要进一步提升的方向。
图示:AI 与医疗。(来源:AI 生成)
总而言之,科学家们在不断探索 AI 在医疗决策、医学诊断中的应用,已有的评估结果表明,AI 在这些领域的使用正变得越来越可靠、越来越安全。相信在不久的将来,AI 将成为医疗体系中不可或缺的强大助力,为全球的患者造福!