# Benchmark evaluation of DeepSeek large language models in clinical decision-making > [!info]+ <center>Metadata</center> > > |<div style="width: 5em">Key</div>|Value| > |--:|:--| > |文献类型|journalArticle| > |标题|Benchmark evaluation of DeepSeek large language models in clinical decision-making| > |短标题|DeepSeek大语言模型在临床决策中的基准评估| > |作者|[[Sarah Sandmann]]、 [[Stefan Hegselmann]]、 [[Michael Fujarski]]、 [[Lucas Bickmann]]、 [[Benjamin Wild]]、 [[Roland Eils]]、 [[Julian Varghese]]| > |期刊名称|[[Nature Medicine]]| > |DOI|[10.1038/s41591-025-03727-2](https://doi.org/10.1038/s41591-025-03727-2)| > |存档位置|| > |文库编目|58.7| > |索书号|1| > |版权|| > |分类|[[AI New]]| > |条目链接|[My Library](zotero://select/library/items/3V27BH8Y)| > |PDF 附件|[Sandmann 等 - 2025 - Benchmark evaluation of DeepSeek large language models in clinical decision-making.pdf](zotero://open-pdf/library/items/7WLQ9GD9)| > |关联文献|| > ^Metadata > [!example]- <center>本文标签</center> > > `$=dv.current().file.tags` > [!quote]- <center>Abstract</center> > > > [!tldr]- <center>隐藏信息</center> > > itemType:: journalArticle > title:: Benchmark evaluation of DeepSeek large language models in clinical decision-making > shortTitle:: DeepSeek大语言模型在临床决策中的基准评估 > creators:: [[Sarah Sandmann]]、 [[Stefan Hegselmann]]、 [[Michael Fujarski]]、 [[Lucas Bickmann]]、 [[Benjamin Wild]]、 [[Roland Eils]]、 [[Julian Varghese]] > publicationTitle:: [[Nature Medicine]] > journalAbbreviation:: Nat Med > volume:: > issue:: > pages:: > series:: > language:: en > DOI:: [10.1038/s41591-025-03727-2](https://doi.org/10.1038/s41591-025-03727-2) > ISSN:: 1078-8956 > url:: [https://www.nature.com/articles/s41591-025-03727-2](https://www.nature.com/articles/s41591-025-03727-2) > archive:: > archiveLocation:: > libraryCatalog:: 58.7 > callNumber:: 1 > rights:: > extra:: 🏷️ /unread、📒 > collection:: [[AI New]] > tags:: #unread > related:: > itemLink:: [My Library](zotero://select/library/items/3V27BH8Y) > pdfLink:: [Sandmann 等 - 2025 - Benchmark evaluation of DeepSeek large language models in clinical decision-making.pdf](zotero://open-pdf/library/items/7WLQ9GD9) > qnkey:: Sandmann 等 - 2025 - Benchmark evaluation of DeepSeek large language models in clinical decision-making > date:: 2025-04-23 > dateY:: 2025 > dateAdded:: 2025-04-26 > datetimeAdded:: 2025-04-26 19:30:59 > dateModified:: 2025-04-26 > datetimeModified:: 2025-04-26 21:15:06 > > abstract:: %--------------ω--------------% # IMA总结 ### 研究总结:DeepSeek大型语言模型在临床决策中的基准评估 #### 1. **研究背景与目标** 大型语言模型(LLMs)在医疗领域展现潜力,但其临床应用面临隐私与法规障碍(如GDPR/HIPAA)。专有模型(如GPT-4o)因无法本地部署难以满足合规要求,而开源模型(如DeepSeek系列)通过本地训练和透明性提供替代方案。本文旨在评估DeepSeek模型的临床决策能力,并与专有模型对比,探索其在安全性和成本效益上的优势。 --- #### 2. **研究方法与数据** - **评估框架**:采用临床决策支持任务,重点评估**诊断准确性**和**治疗建议质量**。 - **数据集**:扩展至125例标准化患者案例,涵盖常见病、罕见病及多专科领域(内科、神经科、外科等),确保统计效力(表S2)。 - **模型对比**:开源模型DeepSeek-V3(V3)、DeepSeek-R1(R1) vs. 专有模型GPT-4o、Gemini-2.0 Flash Thinking Experimental(Gem2FTE)。 - **评估方法**:专家使用**5分Likert量表**对模型输出进行人工评分(扩展数据图2),统计方法包括配对Mann-Whitney检验与Bonferroni校正(p值调整)。 --- #### 3. **关键结果** **诊断任务** - **DeepSeek-R1表现最佳**:与Gem2FTE相比显著更优(p=5.73×10⁻⁵,效应量r_rb=0.60),与GPT-4o无显著差异(p=0.3085)。 - **开源模型优势**:V3和R1在所有疾病类型(包括罕见病)表现一致,而Gem2FTE在罕见病诊断中较差(p=0.0009)。 **治疗推荐任务** - **DeepSeek-R1与GPT-4o相当**:优于Gem2FTE(p=0.0235,r_rb=0.36),但与V3无显著差异(p=0.1522)。 - **模型局限性**:仅39%的治疗推荐达满分(5分),部分指南更新未被准确捕捉,存在潜在临床风险。 **跨模型对比** - **开源vs.专有**:DeepSeek系列在诊断和治疗上与GPT-4o持平,但显著优于旧版GPT-4/3.5(图1E, 2E)。 - **Gem2FTE表现不佳**:作者推测其模型规模较小或医学适配不足所致(参数未公开)。 - **推理模块未增效**:DeepSeek-R1虽设计增强推理,但生成内容更冗长且未提升医学决策表现。 --- #### 4. **讨论与意义** - **开源模型的优势**:本地化部署适应隐私法规,透明性支持审计和医疗合规(如EU-MDR/FDA),且成本低于专有模型。 - **临床适用性**:模型可作为辅助工具,需结合医学数据库更新(如抗生素指南)和人工监督提升鲁棒性。 - **潜在风险**:部分案例准确率不足(如60%诊断满分),需警惕错误输出影响决策,但“人工幻觉”现象较少。 - **未来方向**:需针对临床推理场景优化模型微调,并通过临床研究验证实际效果。 --- #### 5. **补充材料与数据透明性** - **数据可用性**:所有案例和评分公开于补充数据S1,分析代码开源于GitHub(链接见原文)。 - **方法细节**:使用R语言进行统计检验,扩展数据图1为视觉摘要,图2展示模型性能分布。 --- #### 6. **结论** 研究表明,开源DeepSeek模型在临床决策任务中与顶级专有模型表现相当,同时满足医疗数据隐私与法规需求,为安全、可扩展的AI医疗应用提供可行路径。未来需进一步优化模型在复杂医疗场景的准确性和可靠性。 # 百度AI总结 **研究背景**:大型语言模型(LLMs)在医学领域展现出变革潜力,但其临床整合面临数据隐私、算法偏见及生成准确性等挑战,亟需系统性验证与伦理评估。 **研究目的**:评估开源与前沿专有LLMs在临床决策支持任务中的性能,验证开源模型(如DeepSeek)在医疗应用中的可行性及竞争力。 **研究方法**:基于125例标准化患者案例,采用覆盖多疾病频率与临床专科的提示设计,结合透明化数据(案例库、评分)与开源代码,进行诊断及治疗建议任务的多维度性能分析。 **研究过程**:通过严格案例筛选与标准化提示流程,对比DeepSeek与专有模型的诊断准确性、治疗合理性及逻辑一致性,统计测试验证结果显著性,并公开数据与代码确保可重复性。 **研究结论**:DeepSeek在临床决策任务中表现优异,部分指标超越专有模型,证实开源LLMs的医疗应用潜力;研究强调透明化评估框架对推动临床AI部署的关键作用。 ## ✏️ 笔记区 > [!WARNING]+ <center>🐣 总结</center> > >🎯 一句话总结:: > [!inbox]- <center>📫 导入时间</center> > >⏰ importDate:: 2025-04-26 >⏰ importDateTime:: 2025-04-26 21:14:13 ## 原文链接: https://pan.baidu.com/s/1QbjbefX10jFUiB-qKYuffQ?pwd=buaw 提取码: buaw ## 中文网页解读 https://mp.weixin.qq.com/s/4axEzmRtLVx5rj4ZoCAJZQ %--------------ω--------------%