2025年4月23日,Nature子刊 《Nature Medicine》 (医学一区,IF=58.7) 连发两篇外国学者对 DeepSeek 大型语言模型在临床应用的基准评价文章! 一起看看国产 DeepSeek表现如何? ![[jwzx.club(精卫之心俱乐部)/attachments/0c60a953ae5d00b1b1ca962f6d55b044_MD5.webp]]![[jwzx.club(精卫之心俱乐部)/attachments/f20b5e02bb88846543f445c47094c86f_MD5.webp]] **1** **DeepSeek在临床决策中的基准评价 大型语言模型(LLM)正在日益改变医疗应用。 为了证明DeepSeek-V3和DeepSeek-R1的临床实用性, 研究者将它们在临床决策支持任务上的表现与专有 LLM(包括 GPT-4o和Gemini-2.0 Flash Thinking Experimental)进行了基准测试。 ![[jwzx.club(精卫之心俱乐部)/attachments/4e1e78096e1602b60d415395a70f49fe_MD5.webp]] 使用125例具有足够统计效力的患者病例,涵盖了广泛的常见和罕见疾病, 研究者发现DeepSeek模型的表现同样良好,在某些情况下甚至优于专有 LLM。 对于第一个临床决策任务-诊断 ,Gem2FTE的表现明显优于DeepSeek-R1 和 GPT-4o。 DeepSeek-R1与表现最好的模型 GPT-4o 相当。 对于第二次临床决策任务- 治疗, GPT-4o和DeepSeek-R1均表现优于Gem2FTE。同样, GPT-4o与DeepSeek-R1没有显著差异。 与早期的基准模型GPT-4和GPT-3.5相比, GPT-4o和DeepSeek-R1都可以观察到更好的性能,但是Gem2FTE没有。 ![[jwzx.club(精卫之心俱乐部)/attachments/4f18df3e6c725c146ef2ff9d035b258d_MD5.webp]]![[jwzx.club(精卫之心俱乐部)/attachments/74bc26bf35f11d78ded1af46bbf45733_MD5.webp]] **2** **DeepSeek在医疗任务和临床推理方面的比较基准测试** DeepSeek是一种新推出的大型语言模型(LLM),旨在增强推理能力,但其医疗领域的能力尚未得到评估。 本研究评估了三个LLM(DeepSeek-R1,ChatGPT-o1和 Llama 3.1-405B)执行四种不同医疗任务的能力: - 回答美国医疗许可考试(USMLE)中的问题; - 基于文本的诊断和管理案例的解释和推理; - 根据RECIST 1.1标准提供肿瘤分类; - 以及提供跨多种模式的诊断成像报告摘要。 ![[jwzx.club(精卫之心俱乐部)/attachments/00ecb32f2efeffd8fabdc9301a0b2bab_MD5.webp]] 在USMLE测试中, DeepSeek-R1( 准确率=0.92,粉)的性能略逊于ChatGPT-o1(准确率=0.95,绿), 但优于 Llama 3.1-405B(准确率=0.83,黄)。 ![[jwzx.club(精卫之心俱乐部)/attachments/d38da00831082f8ec0388b4ba101b9c7_MD5.webp]] 对于基于文本的病例挑战, DeepSeek-R1的表现与ChatGPT-o1相似 。分别使用新英格兰医学杂志(NEJM)和Medicilline数据库。 ![[jwzx.club(精卫之心俱乐部)/attachments/a9180de90d5614269275cd484f5e9498_MD5.webp]] 对于RECIST分类, DeepSeek-R1的表现也与ChatGPT-o1类似 (0.73 vs 0.81;p = 0.10)。 ![[jwzx.club(精卫之心俱乐部)/attachments/bda0f12513720f88d45b04d5319dc4fb_MD5.webp]] DeepSeek提供的诊断推理步骤被认为 比ChatGPT和Llama 3.1-405B提供的 更准确 。 ![[jwzx.club(精卫之心俱乐部)/attachments/e80c1d23812a4450ca543669bc43e331_MD5.webp]] 然而,DeepSeek-R1提供的汇总成像报告的整体质量低于 ChatGPT-o1(5分Likert评分:4.5 vs 4.8)。 ![[jwzx.club(精卫之心俱乐部)/attachments/96a1ea8543720b9a71e157ec970e4b81_MD5.webp]] 这项研究强调了DeepSeek-R1 LLM在医疗应用方面的潜力,但也强调了需要改进的领域。 两项研究说明,国产 DeepSeek展现了作为开源医疗AI基座的潜力: 其诊断推理能力已达临床可用水平。尽管在知识覆盖深度和生成任务精细化程度上仍需迭代,但通过本地数据的持续微调,有望发展成为安全可控的临床决策支持系统。 # 两篇原文解读如下 [[Tordjman 等 - 2025 - Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning]] [[Sandmann 等 - 2025 - Benchmark evaluation of DeepSeek large language models in clinical decision-making]]