# Benchmark evaluation of DeepSeek large language models in clinical decision-making
> [!info]+ <center>Metadata</center>
>
> |<div style="width: 5em">Key</div>|Value|
> |--:|:--|
> |文献类型|journalArticle|
> |标题|Benchmark evaluation of DeepSeek large language models in clinical decision-making|
> |短标题|DeepSeek大语言模型在临床决策中的基准评估|
> |作者|[[Sarah Sandmann]]、 [[Stefan Hegselmann]]、 [[Michael Fujarski]]、 [[Lucas Bickmann]]、 [[Benjamin Wild]]、 [[Roland Eils]]、 [[Julian Varghese]]|
> |期刊名称|[[Nature Medicine]]|
> |DOI|[10.1038/s41591-025-03727-2](https://doi.org/10.1038/s41591-025-03727-2)|
> |存档位置||
> |文库编目|58.7|
> |索书号|1|
> |版权||
> |分类|[[AI New]]|
> |条目链接|[My Library](zotero://select/library/items/3V27BH8Y)|
> |PDF 附件|[Sandmann 等 - 2025 - Benchmark evaluation of DeepSeek large language models in clinical decision-making.pdf](zotero://open-pdf/library/items/7WLQ9GD9)|
> |关联文献||
> ^Metadata
> [!example]- <center>本文标签</center>
>
> `$=dv.current().file.tags`
> [!quote]- <center>Abstract</center>
>
>
> [!tldr]- <center>隐藏信息</center>
>
> itemType:: journalArticle
> title:: Benchmark evaluation of DeepSeek large language models in clinical decision-making
> shortTitle:: DeepSeek大语言模型在临床决策中的基准评估
> creators:: [[Sarah Sandmann]]、 [[Stefan Hegselmann]]、 [[Michael Fujarski]]、 [[Lucas Bickmann]]、 [[Benjamin Wild]]、 [[Roland Eils]]、 [[Julian Varghese]]
> publicationTitle:: [[Nature Medicine]]
> journalAbbreviation:: Nat Med
> volume::
> issue::
> pages::
> series::
> language:: en
> DOI:: [10.1038/s41591-025-03727-2](https://doi.org/10.1038/s41591-025-03727-2)
> ISSN:: 1078-8956
> url:: [https://www.nature.com/articles/s41591-025-03727-2](https://www.nature.com/articles/s41591-025-03727-2)
> archive::
> archiveLocation::
> libraryCatalog:: 58.7
> callNumber:: 1
> rights::
> extra:: 🏷️ /unread、📒
> collection:: [[AI New]]
> tags:: #unread
> related::
> itemLink:: [My Library](zotero://select/library/items/3V27BH8Y)
> pdfLink:: [Sandmann 等 - 2025 - Benchmark evaluation of DeepSeek large language models in clinical decision-making.pdf](zotero://open-pdf/library/items/7WLQ9GD9)
> qnkey:: Sandmann 等 - 2025 - Benchmark evaluation of DeepSeek large language models in clinical decision-making
> date:: 2025-04-23
> dateY:: 2025
> dateAdded:: 2025-04-26
> datetimeAdded:: 2025-04-26 19:30:59
> dateModified:: 2025-04-26
> datetimeModified:: 2025-04-26 21:15:06
>
> abstract::
%--------------ω--------------%
# IMA总结
### 研究总结:DeepSeek大型语言模型在临床决策中的基准评估
#### 1. **研究背景与目标**
大型语言模型(LLMs)在医疗领域展现潜力,但其临床应用面临隐私与法规障碍(如GDPR/HIPAA)。专有模型(如GPT-4o)因无法本地部署难以满足合规要求,而开源模型(如DeepSeek系列)通过本地训练和透明性提供替代方案。本文旨在评估DeepSeek模型的临床决策能力,并与专有模型对比,探索其在安全性和成本效益上的优势。
---
#### 2. **研究方法与数据**
- **评估框架**:采用临床决策支持任务,重点评估**诊断准确性**和**治疗建议质量**。
- **数据集**:扩展至125例标准化患者案例,涵盖常见病、罕见病及多专科领域(内科、神经科、外科等),确保统计效力(表S2)。
- **模型对比**:开源模型DeepSeek-V3(V3)、DeepSeek-R1(R1) vs. 专有模型GPT-4o、Gemini-2.0 Flash Thinking Experimental(Gem2FTE)。
- **评估方法**:专家使用**5分Likert量表**对模型输出进行人工评分(扩展数据图2),统计方法包括配对Mann-Whitney检验与Bonferroni校正(p值调整)。
---
#### 3. **关键结果**
**诊断任务**
- **DeepSeek-R1表现最佳**:与Gem2FTE相比显著更优(p=5.73×10⁻⁵,效应量r_rb=0.60),与GPT-4o无显著差异(p=0.3085)。
- **开源模型优势**:V3和R1在所有疾病类型(包括罕见病)表现一致,而Gem2FTE在罕见病诊断中较差(p=0.0009)。
**治疗推荐任务**
- **DeepSeek-R1与GPT-4o相当**:优于Gem2FTE(p=0.0235,r_rb=0.36),但与V3无显著差异(p=0.1522)。
- **模型局限性**:仅39%的治疗推荐达满分(5分),部分指南更新未被准确捕捉,存在潜在临床风险。
**跨模型对比**
- **开源vs.专有**:DeepSeek系列在诊断和治疗上与GPT-4o持平,但显著优于旧版GPT-4/3.5(图1E, 2E)。
- **Gem2FTE表现不佳**:作者推测其模型规模较小或医学适配不足所致(参数未公开)。
- **推理模块未增效**:DeepSeek-R1虽设计增强推理,但生成内容更冗长且未提升医学决策表现。
---
#### 4. **讨论与意义**
- **开源模型的优势**:本地化部署适应隐私法规,透明性支持审计和医疗合规(如EU-MDR/FDA),且成本低于专有模型。
- **临床适用性**:模型可作为辅助工具,需结合医学数据库更新(如抗生素指南)和人工监督提升鲁棒性。
- **潜在风险**:部分案例准确率不足(如60%诊断满分),需警惕错误输出影响决策,但“人工幻觉”现象较少。
- **未来方向**:需针对临床推理场景优化模型微调,并通过临床研究验证实际效果。
---
#### 5. **补充材料与数据透明性**
- **数据可用性**:所有案例和评分公开于补充数据S1,分析代码开源于GitHub(链接见原文)。
- **方法细节**:使用R语言进行统计检验,扩展数据图1为视觉摘要,图2展示模型性能分布。
---
#### 6. **结论**
研究表明,开源DeepSeek模型在临床决策任务中与顶级专有模型表现相当,同时满足医疗数据隐私与法规需求,为安全、可扩展的AI医疗应用提供可行路径。未来需进一步优化模型在复杂医疗场景的准确性和可靠性。
# 百度AI总结
**研究背景**:大型语言模型(LLMs)在医学领域展现出变革潜力,但其临床整合面临数据隐私、算法偏见及生成准确性等挑战,亟需系统性验证与伦理评估。
**研究目的**:评估开源与前沿专有LLMs在临床决策支持任务中的性能,验证开源模型(如DeepSeek)在医疗应用中的可行性及竞争力。
**研究方法**:基于125例标准化患者案例,采用覆盖多疾病频率与临床专科的提示设计,结合透明化数据(案例库、评分)与开源代码,进行诊断及治疗建议任务的多维度性能分析。
**研究过程**:通过严格案例筛选与标准化提示流程,对比DeepSeek与专有模型的诊断准确性、治疗合理性及逻辑一致性,统计测试验证结果显著性,并公开数据与代码确保可重复性。
**研究结论**:DeepSeek在临床决策任务中表现优异,部分指标超越专有模型,证实开源LLMs的医疗应用潜力;研究强调透明化评估框架对推动临床AI部署的关键作用。
## ✏️ 笔记区
> [!WARNING]+ <center>🐣 总结</center>
>
>🎯 一句话总结::
> [!inbox]- <center>📫 导入时间</center>
>
>⏰ importDate:: 2025-04-26
>⏰ importDateTime:: 2025-04-26 21:14:13
## 原文链接:
https://pan.baidu.com/s/1QbjbefX10jFUiB-qKYuffQ?pwd=buaw 提取码: buaw
## 中文网页解读
https://mp.weixin.qq.com/s/4axEzmRtLVx5rj4ZoCAJZQ
%--------------ω--------------%