【论文阅读】CARES:医学视觉语言模型可信度的综合基准
CARES:医学视觉语言模型可信度的综合基准
- 1. 研究背景与动机
- 2. 方法论创新
- 3. 核心实验结果
- 4. 贡献与意义
- 5.总结
CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models
CARES:医学视觉语言模型可信度的综合基准
Accepted by NeurIPS 2024
github:地址
1. 研究背景与动机
- 医疗AI的机遇与挑战:
Med-LVLMs在自动化医疗诊断、个性化治疗建议等领域展现出潜力,但其实际部署面临重大风险——可信度未经验证。模型可能生成非事实的医疗诊断、对生成的诊断过于自信、隐私泄露、健康差异等。例如,模型将良性肿瘤误诊为恶性肿瘤,可能导致不必要的侵入性手术,给患者带来巨大的精神痛苦。 因此,在医疗应用中,了解和评估 Med-LVLM 的可信度至关重要。 - 现有研究空白:
此前工作多聚焦单一维度(如诊断准确性),缺乏系统性评估框架。CARES填补了这一空白,首次从可信性、公平性、安全性、隐私性、鲁棒性五个维度全面评估Med-LVLMs。图1
2. 方法论创新
2.1 数据集构建(CARES Benchmark)
- 数据来源与规模:
整合7个公开医疗数据集(如MIMIC-CXR、HAM10000等),覆盖16种医学影像模态(X光、MRI等)和27个解剖区域(胸部、皮肤等),包含18K图像与41K QA对。 - 问题类型设计:
- 封闭式问题(多选题/是非题):评估模型对明确答案的准确性。
- 开放式问题:要求生成描述性回答,通过GPT-4评分(1-10分)量化准确性,更贴近真实医疗场景的复杂性。
- 数据生成与校验:
利用GPT-4自动生成QA对,结合人工审核确保质量,增强多样性与临床相关性。
2.2 评估维度与指标
-
可信性(Trustfulness)
- 事实性:直接评估回答准确性(封闭式匹配,开放式GPT-4评分)。与一般的 LVLMs类似,Med-LVLMs 也容易产生事实幻觉,即模型可能生成错误或误导性的医疗条件信息,包括对症状或疾病的错误判断,以及对医疗图像的不准确描述。在结果上,LLaVA-Med 的整体性能最好
- 不确定性:模型是否合理判断自身知识的边界(通过“是否确定正确”的附加提问,计算过自信率)。对于基于不确定性的准确度,我们将模型以置信度正确预测(即对不确定性问题回答 “是”)或预测错误但承认不确定性(即回答 “否”)的情况视为正确。 反之,模型预测错误但有信心,或预测正确但缺乏信心,则被视为不正确样本。 因此,我们建议测量模型有把握做出错误预测的实例比例,我们称之为过度自信比率。
-
公平性(Fairness)
- 按年龄、性别、种族分组统计准确率差异,量化模型在不同群体中的表现偏差。
- 按年龄、性别、种族分组统计准确率差异,量化模型在不同群体中的表现偏差。
-
安全性(Safety)
- 越狱攻击(Jailbreaking):设计诱导模型生成错误医疗建议的恶意提示,评估防御能力(拒绝回答率)。
- 毒性(Toxicity):通过诱导生成有害内容,使用Perspective API量化毒性得分变化。
- 过度谨慎(Overcautiousness):模型对常规医疗问题的不必要拒绝率。
-
隐私性(Privacy)
- 零样本/少样本隐私泄露:直接询问患者隐私信息(如婚姻状态),评估模型拒绝回答的能力与生成虚构隐私信息的倾向。
-
鲁棒性(Robustness)
- 输入级扰动:加入噪声后模型性能下降幅度。
- 语义级分布偏移:测试模型对未见模态(如用放射学模型处理眼底图像)的识别与拒绝能力。
3. 核心实验结果
3.1 可信性
- 事实性错误普遍:所有模型在开放式问题上准确率低于50%,罕见解剖区域(如足部)表现更差。
- 过度自信问题严重:模型倾向于对错误答案高度自信(如Med-Flamingo过自信率59.11%)。
3.2 公平性
- 年龄差异:40-60岁群体表现最佳,老年群体因训练数据不足准确率显著下降。
- 种族差异:西班牙裔和白人群体表现优于其他种族(如HAM10000数据集中准确率差异达15%)。
3.3 安全性
- 越狱攻击有效:所有模型在恶意提示下准确率下降(如LLaVA-Med下降4.78%),仅LLaVA-Med具备一定防御机制(拒绝率30.17%)。
- 毒性生成风险:通用LVLM(如LLaVA-v1.6)毒性得分增幅显著(+14.26%),Med-LVLMs防御能力较弱。
3.4 隐私性
- 隐私保护不足:多数模型无法有效拒绝隐私问题(如RadFM拒绝率为0),且倾向于生成虚构隐私信息(准确率普遍低于50%)。
- 少样本泄露风险:暴露虚构示例后,模型更易泄露输入中的隐私信息(如Qwen-VL-Chat准确率从5.10%升至11.32%)。
3.5 鲁棒性
- 输入扰动敏感:加入噪声后模型准确率显著下降(如LLaVA-Med在IU-Xray上下降9.33%),但拒绝回答率低(<5%)。
- 分布外数据处理差:模型对未见模态(如眼底图像)几乎无拒绝能力(拒绝率≈0%)。
4. 贡献与意义
- 首个系统性医疗VLMs可信度基准:覆盖多维度、多模态,为研究提供标准化评估工具。
- 关键问题揭示:指出现有模型的严重缺陷(如事实性错误、公平性偏差),推动改进方向。
5.总结
在本文中,介绍了 CARES,这是一个旨在评估医学 LVLM 可信度的综合基准。 它涵盖 16 种医学成像模式和 27 种解剖结构,通过不同的问题形式评估模型的可信度。 CARES 从多个维度–可信度、公平性、安全性、隐私性和稳健性–全面评估了医学 LVLM。 作者的研究结果表明,现有的 Med-LVLM 非常不可靠,经常出现事实错误和能力判断失误。 此外,这些模型在实现跨人口群体的公平性方面也很困难,而且容易受到攻击并产生有毒反应。 最终,CARES 所做的评估旨在推动进一步标准化,开发出更可靠的 Med-LVLMs。
相关文章:
【论文阅读】CARES:医学视觉语言模型可信度的综合基准
CARES:医学视觉语言模型可信度的综合基准 1. 研究背景与动机2. 方法论创新3. 核心实验结果4. 贡献与意义5.总结 CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models CARES:医学视觉语言模型可信度的综合基准 Accep…...
Qt窗口坐标体系
坐标系:以左上角为原点(0,0),X向右增加,Y向下增加 对于嵌套窗口,其坐标是相对于父窗口来说的 例如: 通过move方法实现...
英伟达消费级RTX显卡配置表
显卡型号显存大小显存频率显存位宽显存带宽CUDA核心数TDP(功耗)上市年份RTX 409024GB21 Gbps384-bit1,008 GB/s16,384450W2022RTX 4080 (16GB)16GB22.4 Gbps256-bit716.8 GB/s9,728320W2022RTX 4080 (12GB)12GB21 Gbps192-bit504 GB/s7,680285W2023RTX 4…...
1.5.3 掌握Scala内建控制结构 - for循环
Scala的for循环功能强大,支持单重和嵌套循环。单重for循环语法为for (变量 <- 集合或数组 (条件)) {语句组},可选筛选条件,循环变量依次取集合值。支持多种任务,如输出指定范围整数(使用Range、to、until࿰…...
10、STL中的unordered_map使用方法
一、了解 1、unordered_map(哈希) unordered_map是借用哈希表实现的关联容器。 访问键值对O(1),最坏情况O(n),例如哈希冲突严重时。【n是一个哈希桶的元素数量】 unordered_map特性 键值对存储ÿ…...
pycharm-python國際象棋遊戲代碼
嗯,用户的问题是“pycharm寫關於python國際象棋遊戲代碼”,也就是要用PyCharm来写一个Python的国际象棋游戏代码。我需要先整理一下用户提供的搜索结果,看看有什么相关的信息可以利用。 首先看搜索结果中的各个网页内容。网页1主要讲的是象棋…...
Linux下Redis哨兵集群模式搭建(1主2从+3哨兵)
Linux下Redis哨兵集群模式搭建(1主2从3哨兵) 一、Redis哨兵模式搭建 1.安装包下载 链接: https://pan.baidu.com/s/1_n2rCMi5MHX-mVkkyMo4LA 提取码: gbra 2.新建redis目录 mkdir -p /app/redis3.解压到/app/redis目录下 tar -zxvf redis-6.2.16.ta…...
二.使用ffmpeg对原始音频数据重采样并进行AAC编码
重采样:将音频三元组【采样率 采样格式 通道数】之中的任何一个或者多个值改变。 一.为什么要进行重采样? 1.原始音频数据和编码器的数据格式不一致 2.播放器要求的和获取的数据不一致 3.方便运算 二.本次编码流程 1.了解自己本机麦克风参数&#x…...
【初学者】请介绍一下指针分析(Pointer Analysis)?
李升伟 整理 指针分析(Pointer Analysis) 指针分析(Pointer Analysis)是一种静态程序分析技术,用于确定程序中指针可能指向的内存位置或对象。它是编译器优化、程序验证、漏洞检测和并行化等领域的重要基础。 1. 指…...
【程序人生】成功人生架构图(分层模型)
文章目录 ⭐前言⭐一、根基层——价值观与使命⭐二、支柱层——健康与能量⭐三、驱动层——学习与进化⭐四、网络层——关系系统⭐五、目标层——成就与财富⭐六、顶层——意义与传承⭐外层:调节环——平衡与抗风险⭐思维导图 标题详情作者JosieBook头衔CSDN博客专家…...
目标检测20年(一)
今天看的文献是《Object Detection in 20 Years: A Survey》,非常经典的一篇目标检测文献,希望通过这篇文章学习到目标检测的基础方法并提供一些创新思想。 论文链接:1905.05055 目录 一、摘要 1.1 原文 1.2 翻译 二、介绍 三、目标检测…...
SQLMesh系列教程:SQLMesh虚拟数据环境
各种工具都已将软件工程实践引入到数据工程中,但仍有差距存在,尤其是在测试和工作流等领域。SQLMesh 的目标是在这些领域开辟新的天地,解决像 dbt 这样的竞争产品尚未提供强大解决方案的难题。在这篇文章中,我将对 SQLMesh 进行简…...
【python小游戏】扫雷
扫雷小游戏代码。供消遣娱乐: import tkinter as tk from tkinter import messagebox import random# 游戏参数(中等难度:15x15 网格,40 颗雷) ROWS 15 COLS 15 MINES 40 CELL_SIZE 30 COLORS {default: #CCCCCC…...
【Linux】learning notes(4)cat、more、less、head、tail、vi、vim
文章目录 catmore 查看整个文件less 查看整个文件head 查看部分文件tail 查看部分文件vim / vi cat cat 命令在 Linux 和 Unix 系统中非常常用,它用于连接文件并打印到标准输出设备(通常是屏幕)。虽然 cat 的基本用法很简单,但它…...
【论文阅读】Adversarial Patch Attacks on Monocular Depth Estimation Networks
一、背景 单目深度估计是CV领域一个比较热门的研究方向,但是现有的方法过度依赖于非深度特征,使得单目深度估计的模型容易受到外界的攻击,针对这一问题该论文设计了一种攻击贴图的方法,用于攻击深度学习实现的单目深度估计模型。…...
基于Flask的自闭症患者诊断辅助系统:助力自闭症诊断
基于Flask的自闭症患者诊断辅助系统:助力自闭症诊断的创新方案 在当今社会,自闭症的早期准确诊断对于患者的治疗和康复至关重要。作为项目的第一作者,我致力于开发一款基于Web的自闭症诊断辅助系统,为这一领域贡献一份力量。 本…...
SqlServer Sql学习随笔
环境 SqlServerSSMSC# 查询 --查询来自数据库[MyTestDb]的[dbo]的表[testTable]前1000条数据--dbo 代表 数据库所有者(Database Owner),在 SQL Server 里,它是一个模式(Schema)。 --**模式(Sc…...
【6】组合计数学习笔记
前言 关于今天发现自己连快速幂都忘记怎么写这件事 这篇博客是组合计数基础,由于大部分内容都是 6 6 6 级,所以我就给整个提高级的组合数学评了 6 6 6 级。 组合计数基础 加法原理与乘法原理 加法原理(分类计数原理)&#…...
功能安全实战系列06-英飞凌Tricore系列SMU详解
本文框架 前言1.What?1.1SMU特性及架构1.1.1 SMU_core和SMU_stdby1.1.2 Flip-Flop机制1.1.3 RT Alarm (RecoveryTime)1.2 Alarm状态机1.3 FSP1.4 Alarm handing1.4.1 SMU_core Alarm handing1.4.2 SMU_Standby Alarm handing1.5 寄存器介绍2.How?2.1 如何排查SMU问题前言 在…...
Python 中的集合的中高级用法
Python 中的集合(set)是一种无序且不重复的数据结构,适用于去重、成员检测和集合运算等场景。以下是集合的中级和高级用法,涵盖从基础到高级的详细操作。 1. 集合的创建与初始化 1.1 创建集合 # 空集合 empty_set = set()# 直接初始化 my_set = {1, 2,...
opencv初步学习——图像处理2
这一部分主要讲解如何初步地创建一个图像,以及彩色图像我们的一些基本处理方法 一、创建一个灰度图像 1-1、zeros()函数 [NumPy库] 要用到这一个函数,首先我们需要调用我们的NumPy库,这一个函数的作用是可以帮助我们生成一个元素值都是0的二…...
传统服务部署、虚拟化部署与云原生部署资源消耗对比与优化指南
1. 三种部署方式概述 1.1 传统服务部署 定义:直接运行于物理服务器或基础Linux操作系统环境,无虚拟化层隔离 特点: 资源独占(CPU/内存/磁盘) 部署流程简单但扩展困难 典型场景:单一业务高负载场景&…...
使用htool工具导出和导入Excel表
htool官网 代码中用到的hool包里面的excel工具ExcelUtil 1. 引入依赖 <!-- Java的工具类 --><dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.25</version></dependency>&l…...
【Linux内核】从文件层面理解socket建立的方式(优雅的C风格多态)
内核层面理解 Socket 的创建和连接 引言 众所周知,Linux 下一切皆文件。无论是普通文件(如 file.txt),还是特殊文件(包括网络套接字),我们都可以以处理文件的方式来访问它们。网络套接字&…...
WebSocket:开启实时通信的新篇章
在当今的互联网应用中,实时交互已经成为不可或缺的一部分。无论是实时的在线聊天、股票行情更新,还是多人在线游戏,都需要一种高效的双向通信机制。而这正是 WebSocket 的用武之地。 本文将带你深入了解 WebSocket,探索其工作原理…...
只是“更轻更薄”?不!遨游三防平板还选择“更强更韧”
当消费电子领域普遍追求“更轻更薄”的设计美学时,遨游三防平板不止于此,还选择了另一条道路——“更强更韧”。在智能制造的复杂场景中,三防平板需直面高温、油污、撞击与极端气候的考验。普通消费级平板因防护性能不足,常因环境…...
C++ 各种map对比
文章目录 特点比较1. std::map2. std::unordered_map3. std::multimap4. std::unordered_multimap5. hash_map(SGI STL 扩展) C 示例代码代码解释 特点比较 1. std::map 底层实现:基于红黑树(一种自平衡的二叉搜索树)…...
《量子门与AI神经元:计算世界的奇妙碰撞》
在当今科技飞速发展的时代,量子计算和人工智能作为前沿领域,正不断颠覆我们对计算和智能的认知。量子门操作和AI中的神经元计算过程,分别作为这两大领域的核心机制,看似处于不同维度,却有着千丝万缕的联系,…...
【Linux———生产消费模型】
并不是真的路过而已,也不是真的不会想你.............................................................................. 文章目录 前言 一、【生产者消费者模型的介绍】 1、【概念引入】 2、【特点—321原则】 3、【优点】 二、【基于阻塞队列的生产者消费…...
876.链表的中间节点
题目 Python # Definition for singly-linked list. # class ListNode: # def __init__(self, val0, nextNone): # self.val val # self.next next class Solution:def middleNode(self, head: Optional[ListNode]) -> Optional[ListNode]:slow fa…...
蓝桥杯第13届真题2
由硬件框图可以知道我们要配置LED 和按键 一.LED 先配置LED的八个引脚为GPIO_OutPut,锁存器PD2也是,然后都设置为起始高电平,生成代码时还要去解决引脚冲突问题 二.按键 按键配置,由原理图按键所对引脚要GPIO_Input 生成代码&a…...
【微信小程序变通实现DeepSeek支持语音】
微信小程序实现录音转文字,并调用后端服务(Node.js)进行语音识别和,然后调用DeepSeek 处理的完整实现。 整体架构 前端(微信小程序): 实现录音功能。将录音文件上传到后端。接收后端返回的语音…...
XSS 绕过分析:一次循环与两次循环的区别
目录 代码分析 代码流程: 一次循环的问题 原因分析:删除顺序导致遗漏 两次循环修复方案 两种绕过方式 绕过方法 1:DOM破环 绕过方法 2:SVG XSS(双 SVG 绕过) 1. 为什么 "一个SVG注定失败&…...
AI重构工程设计、施工、总承包行业:从智能优化到数字孪生的产业革命
摘要 AI正深度重构工程设计、施工与总承包行业,推动从传统经验驱动向数据智能驱动的转型。本文系统性解析AI当前在智能优化设计、施工过程管理、全生命周期数字孪生等场景的应用,展望未来AI在自动化决策、跨域协同等领域的潜力,并从投入产出…...
全局上下文网络GCNet:创新架构提升视觉识别性能
摘要:本文介绍了全局上下文网络(GCNet),通过深入分析非局部网络(NLNet),发现其在重要视觉识别任务中学习的全局上下文与查询位置无关。基于此,提出简化的非局部模块、全局上下文建模…...
MySQL 调优
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…...
ASP3605抗辐照加固同步降压调节器——商业航天电源芯片解决方案新选择
ASP3605企业宇航级型号ASP3605S2U通过SEU≥75 MeVcm/mg与SEL≥75 MeVcm/mg抗辐射测试。其输入电压4V至15V,输出电流5A,支持多相级联与冗余设计,适用于卫星、航天器电源系统。 面向航天场景的核心功能设计 1. 抗辐射与可靠性保障 单粒子效应…...
C#的List和DIctionary实现原理(手搓泛型类以及增删查改等功能)
这里写自定义目录标题 ListDIctionary List MyList类:这是一个泛型类,能够存储任意类型的元素。 _items数组:用于实际存储元素。 _size变量:记录当前列表中的元素数量。 构造函数:初始化数组容量为 4。 Count属性&…...
设计模式-对象创建
对象创建 前言1. Factory Method1.1 模式介绍1.2 模式代码1.2.1 问题代码1.2.2 重构代码 1.3 模式类图1.4 要点总结 2. Abstract Factory2.1 模式介绍2.2 模式代码2.2.1 问题代码2.2.2 重构代码 2.3 模式类图2.4 要点总结 3. Prototype3.1 模式介绍3.2 模式代码3.3 模式类图3.4…...
Linux进程虚拟内存空间的管理
5、 进程虚拟内存空间的管理 主要逻辑 重点函数 task_struct函数(进程在内核中的描述符函数) 进程在内核中的描述符task_struct结构: struct task_struct{ //进程的描述符//进程idpid_t pid;//用于标识线程所属的进程pid_t tgi…...
git tag常用操作
git tag是干嘛用的,相当于一个轻量级的分支。在一个分支上,创建一个tag,就是标记某一次的提交。然后方便checkout到 这个标签上。用tag的意思就是不用专门再创建一个新分支来修改后续的改动。分支不变,继续在上面改动,…...
VIVO手机如何实现证件照换底色?证件照换底色技巧分享
在日常生活中,我们常常需要使用不同底色的证件照,无论是办理证件、提交资料还是其他用途,一张符合要求的证件照都显得尤为重要。 而VIVO手机凭借其强大的拍照功能和便捷的图片编辑工具,为我们提供了一种简单高效的证件照换底色解…...
函数闭包的学习
作用:可以保存外部函数的变量 形成条件: 1 函数嵌套 2 内部函数用了外部函数的变量或者参数 3 外部函数返回了内部函数(是返函数名,不带括号) 这个使用了外部函数变量的内部函数称为闭包。 口诀:函数嵌…...
解码软件需求的三个维度:从满足基础到创造惊喜
在软件开发的世界里,用户需求就像一张复杂的地图,指引着产品前进的方向。但并非所有需求都能带来同样的价值——有些是产品生存的“氧气”,有些是吸引用户的“磁石”,还有一些则是让人眼前一亮的“魔法”。如何区分它们࿱…...
网页制作代码html制作一个网页模板
制作一个简单而实用的网页模板:HTML基础入门 在数字时代,网页已成为信息展示和交流的重要平台。HTML(HyperText Markup Language)作为网页制作的基础语言,为开发者提供了构建网页的基本框架。本文将带你了解如何使用H…...
股票量化交易开发 Yfinance
以下是一段基于Python的股票量化分析代码,包含数据获取、技术指标计算、策略回测和可视化功能: python import yfinance as yfimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom backtesting import Bac…...
从 Snowflake 到 Databend Cloud:全球游戏平台借助 Databend 实现实时数据处理
导读:某全球游戏平台为全球数百万玩家提供实时的技能型游戏体验与无缝的实时互动。对该游戏平台而言,保持数据的实时更新和实时分析,对提升玩家互动和留存率至关重要。他们在使用 Snowflake 进行实时数据摄取和分析时遇到了重大挑战ÿ…...
工作记录 2017-02-08
工作记录 2017-02-08 序号 工作 相关人员 1 修改邮件上的问题。 更新RD服务器。 郝 更新的问题 1、CPT的录入页面做修改 1.1、Total 改为 Price 1.2、当删除行时,下面的行自动上移。 2、Pending Payments、Payment Posted、All A/R Accounts页面加了CoIns…...
【RabbitMQ】RabbitMQ的基本架构是什么?包括哪些核心组件?
RabbitMQ基于AMQP协议实现,由多个核心组件组成,确保消息的可靠传递。 Rabbit的架构图: 1.RabbitMQ的基本架构: 1.核心组件: 1.Producer(生产者): 发送消息到RabbitMQ。 2.Exchange(交换机):接…...
Quartz知识点总结
简单说明 简单的定时任务使用Timer或者ScheduledExecutorService quartz支持复杂的定时执行功能。支持ram存储(内存存储)和持久化存储。quartz有分布式和集群能力 简单使用 获取任务调度器Schedule。任务调度器可以管理任务。创建任务实例。使用JobB…...