当前位置：首页 > news >正文

【论文阅读】CARES：医学视觉语言模型可信度的综合基准

news 来源：原创 2025/8/9 11:41:00

CARES：医学视觉语言模型可信度的综合基准

- 1. 研究背景与动机
- 2. 方法论创新
- 3. 核心实验结果
- 4. 贡献与意义
- 5.总结

CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models
CARES：医学视觉语言模型可信度的综合基准
Accepted by NeurIPS 2024
github:地址

1. 研究背景与动机

医疗AI的机遇与挑战：
Med-LVLMs在自动化医疗诊断、个性化治疗建议等领域展现出潜力，但其实际部署面临重大风险——可信度未经验证。模型可能生成非事实的医疗诊断、对生成的诊断过于自信、隐私泄露、健康差异等。例如，模型将良性肿瘤误诊为恶性肿瘤，可能导致不必要的侵入性手术，给患者带来巨大的精神痛苦。因此，在医疗应用中，了解和评估 Med-LVLM 的可信度至关重要。
现有研究空白：
此前工作多聚焦单一维度（如诊断准确性），缺乏系统性评估框架。CARES填补了这一空白，首次从可信性、公平性、安全性、隐私性、鲁棒性五个维度全面评估Med-LVLMs。图1

在这里插入图片描述

2. 方法论创新

2.1 数据集构建（CARES Benchmark）

数据来源与规模：
整合7个公开医疗数据集（如MIMIC-CXR、HAM10000等），覆盖16种医学影像模态（X光、MRI等）和27个解剖区域（胸部、皮肤等），包含18K图像与41K QA对。
问题类型设计：
- 封闭式问题（多选题/是非题）：评估模型对明确答案的准确性。
- 开放式问题：要求生成描述性回答，通过GPT-4评分（1-10分）量化准确性，更贴近真实医疗场景的复杂性。
数据生成与校验：
利用GPT-4自动生成QA对，结合人工审核确保质量，增强多样性与临床相关性。

2.2 评估维度与指标

可信性（Trustfulness）
- 事实性：直接评估回答准确性（封闭式匹配，开放式GPT-4评分）。与一般的 LVLMs类似，Med-LVLMs 也容易产生事实幻觉，即模型可能生成错误或误导性的医疗条件信息，包括对症状或疾病的错误判断，以及对医疗图像的不准确描述。在结果上，LLaVA-Med 的整体性能最好
- 不确定性：模型是否合理判断自身知识的边界（通过“是否确定正确”的附加提问，计算过自信率）。对于基于不确定性的准确度，我们将模型以置信度正确预测（即对不确定性问题回答 “是”）或预测错误但承认不确定性（即回答 “否”）的情况视为正确。反之，模型预测错误但有信心，或预测正确但缺乏信心，则被视为不正确样本。因此，我们建议测量模型有把握做出错误预测的实例比例，我们称之为过度自信比率。
公平性（Fairness）
- 按年龄、性别、种族分组统计准确率差异，量化模型在不同群体中的表现偏差。
安全性（Safety）
- 越狱攻击（Jailbreaking）：设计诱导模型生成错误医疗建议的恶意提示，评估防御能力（拒绝回答率）。
- 毒性（Toxicity）：通过诱导生成有害内容，使用Perspective API量化毒性得分变化。
- 过度谨慎（Overcautiousness）：模型对常规医疗问题的不必要拒绝率。
隐私性（Privacy）
- 零样本/少样本隐私泄露：直接询问患者隐私信息（如婚姻状态），评估模型拒绝回答的能力与生成虚构隐私信息的倾向。
鲁棒性（Robustness）
- 输入级扰动：加入噪声后模型性能下降幅度。
- 语义级分布偏移：测试模型对未见模态（如用放射学模型处理眼底图像）的识别与拒绝能力。

3. 核心实验结果

3.1 可信性

事实性错误普遍：所有模型在开放式问题上准确率低于50%，罕见解剖区域（如足部）表现更差。
过度自信问题严重：模型倾向于对错误答案高度自信（如Med-Flamingo过自信率59.11%）。

3.2 公平性

年龄差异：40-60岁群体表现最佳，老年群体因训练数据不足准确率显著下降。
种族差异：西班牙裔和白人群体表现优于其他种族（如HAM10000数据集中准确率差异达15%）。

3.3 安全性

越狱攻击有效：所有模型在恶意提示下准确率下降（如LLaVA-Med下降4.78%），仅LLaVA-Med具备一定防御机制（拒绝率30.17%）。
毒性生成风险：通用LVLM（如LLaVA-v1.6）毒性得分增幅显著（+14.26%），Med-LVLMs防御能力较弱。

3.4 隐私性

隐私保护不足：多数模型无法有效拒绝隐私问题（如RadFM拒绝率为0），且倾向于生成虚构隐私信息（准确率普遍低于50%）。
少样本泄露风险：暴露虚构示例后，模型更易泄露输入中的隐私信息（如Qwen-VL-Chat准确率从5.10%升至11.32%）。

3.5 鲁棒性

输入扰动敏感：加入噪声后模型准确率显著下降（如LLaVA-Med在IU-Xray上下降9.33%），但拒绝回答率低（<5%）。
分布外数据处理差：模型对未见模态（如眼底图像）几乎无拒绝能力（拒绝率≈0%）。

4. 贡献与意义

首个系统性医疗VLMs可信度基准：覆盖多维度、多模态，为研究提供标准化评估工具。
关键问题揭示：指出现有模型的严重缺陷（如事实性错误、公平性偏差），推动改进方向。

5.总结

在本文中，介绍了 CARES，这是一个旨在评估医学 LVLM 可信度的综合基准。它涵盖 16 种医学成像模式和 27 种解剖结构，通过不同的问题形式评估模型的可信度。 CARES 从多个维度–可信度、公平性、安全性、隐私性和稳健性–全面评估了医学 LVLM。作者的研究结果表明，现有的 Med-LVLM 非常不可靠，经常出现事实错误和能力判断失误。此外，这些模型在实现跨人口群体的公平性方面也很困难，而且容易受到攻击并产生有毒反应。最终，CARES 所做的评估旨在推动进一步标准化，开发出更可靠的 Med-LVLMs。