当前位置：首页 > news >正文

依赖于切片级标签，结合信息瓶颈理论，对弱监督病理切片分类模型进行微调

news 来源：原创 2025/9/18 1:45:37

小罗碎碎念

在医学AI领域，病理全切片图像（WSI）分析意义重大，但面临诸多难题。

高分辨率的WSI使得获取精确注释极为困难，且计算成本高昂。

多实例学习（MIL）虽能利用WSI级弱监督缓解注释压力，却存在实例级表示能力不足的问题。传统基于ImageNet-1K预训练模型因域差距大，会丢失关键信息；自监督学习（SSL）虽有潜力，但任务特定特征未被充分挖掘。

这促使研究人员探索更有效的方法来提升WSI分析的性能和泛化能力。

针对上述困境，本文提出了基于变分信息瓶颈（IB）理论的高效WSI微调框架。

IB模块能将超大型实例袋提炼为稀疏实例袋，大幅减轻计算负担，同时保留关键任务信息。

该框架仅依赖WSI级弱标签，先通过优化IB模块损失函数得到稀疏实例集，接着微调骨干网络以学习任务特定特征，最后利用微调后的实例特征训练分类器。

Workflow of WSI-MIL task-specific fine-tuning.

此外，该框架还能结合SSL进一步提升性能，并融入多样的数据增强策略，有效增强模型在不同数据集上的泛化能力。

在实验环节，研究人员使用五个病理WSI数据集进行全面评估。

结果显示，相较于先前方法，该框架在准确率和泛化能力上均实现显著提升。

在多个数据集的分类任务中，无论是采用经典的MIL架构，还是结合SSL进行微调，该方法都展现出卓越的性能。

预训练与微调的热力图对比。首行展示完整标注，其中红色轮廓标示肿瘤区域，绿色轮廓过滤无意义背景。第二行与第三行分别呈现基于预训练特征和微调特征的整张切片注意力分布图。

这一成果为医学AI在病理诊断中的实际应用提供了更强大的技术支持，有望推动该领域的进一步发展，助力实现更精准、高效的病理诊断。

交流群

欢迎大家加入【医学AI】交流群，本群设立的初衷是提供交流平台，方便大家后续课题合作。

目前小罗全平台关注量61,000+，交流群总成员1400+，大部分来自国内外顶尖院校/医院，期待您的加入！！

由于近期入群推销人员较多，已开启入群验证，扫码添加我的联系方式，备注姓名-单位-科室/专业，即可邀您入群。

知识星球

对推文中的内容感兴趣，想深入探讨？在处理项目时遇到了问题，无人商量？加入小罗的知识星球，寻找科研道路上的伙伴吧！

一、文献概述

“Task-specific Fine-tuning via Variational Information Bottleneck for Weakly-supervised Pathology Whole Slide Image Classification”由Honglin Li等人撰写。

作者信息

文章提出一种基于变分信息瓶颈的弱监督病理全切片图像分类任务特定微调框架，有效解决计算成本高和监督有限的问题，在多个数据集上提升了分类精度和泛化能力。

研究背景

数字病理学中全切片图像（WSI）分析面临高分辨率导致的标注困难和计算成本高的问题。

多实例学习（MIL）虽缓解了标注成本，但现有方法存在实例级表示能力不足等问题。

预训练模型（如ImageNet-1K预训练和自监督学习（SSL））在WSI分析中存在信息丢失和任务特定特征未充分探索的缺陷。

相关工作

MIL用于WSI分析主要有显式建模和隐式学习两类方法；

SSL在计算机视觉和自然语言处理中表现良好，但因计算限制难以直接用于WSI分析；

信息瓶颈（IB）理论可用于深度学习，其具有信息压缩和特征归因等特性，启发研究人员解决WSI分析中的微调与计算限制问题。

方法

基于MIL的WSI分析将WSI划分为实例袋，通过骨干网络提取特征并聚合预测。

引入IB模块，利用其信息压缩特性，通过优化变分下界，将大尺寸实例袋压缩为稀疏实例袋，降低计算成本。

设计损失函数，结合任务损失和信息损失，在训练时通过蒙特卡罗采样和重参数化技巧优化。

方法包含三个阶段：

学习瓶颈生成稀疏实例集；
微调骨干网络；
利用所有微调实例特征训练传统注意力WSI-MIL分类器。

实验

使用五个数据集评估方法，包括组织病理学和细胞病理学图像，对模型进行预训练和微调。

在多个数据集上对比不同方法，结果表明该微调方法能显著提升WSI分类性能，结合SSL可进一步提高性能。

在域迁移实验中，该方法在不同数据集上也展现出良好的泛化能力。通过消融实验研究学习率、Top-K选择和拉格朗日乘数等因素的影响，可视化注意力图展示了微调特征的可解释性提升。

结论

提出的微调方法在弱监督下通过IB模块降低计算成本，结合SSL提升性能，泛化能力强，在实际病理诊断中具有应用潜力。

二、重点关注

2-1：T - SNE可视化

这是一张利用T - SNE（t分布随机邻域嵌入）对不同图像块表示进行可视化的图。

展示了四种不同预训练或训练方式下图像块特征的分布情况：

ImageNet - 1k（a）：v - score为0.285 ，特征点分布较为分散、杂乱，说明其特征缺乏任务特异性的聚类。ImageNet - 1k是大规模图像数据集，用其预训练模型在迁移到病理图像任务时，因域差距大，特征对病理分类任务针对性不强。
Full Supervision（b）：v - score为0.745 ，特征点形成了较为明显、紧凑的聚类。全监督学习因有完整准确标注，能让模型学习到更具区分度、适合分类任务的特征。
Self - supervised（c）：v - score为0.394 ，特征点分布比ImageNet - 1k稍集中，但仍不够理想。自监督学习虽能利用数据自身结构学习特征，但在特定病理分类任务上，未充分挖掘任务专属特征 。
IB Fine - tuning（ours）（d）：v - score为0.538 ，特征点分布相比ImageNet - 1k和自监督学习，更趋近于任务特异性分布，比前两者更集中。说明本文提出的基于变分信息瓶颈（IB）的微调方法，能将杂乱特征转化为更贴合病理全切片图像分类任务的特征分布，且相比其他弱监督方式，其微调特征更接近全监督特征分布。

v - scores作为聚类评估指标，数值越高，表明特征在聚类上表现越好，更有利于分类任务。总体体现出本文方法在将通用特征转化为任务特异性特征上的优势。

2-2：基于变分信息瓶颈（IB）的微调原理

目标函数

目标是最大化 $R_{IB}=I(Z,Y) - \beta I(Z,X)$ 。

其中:

$I (Z, Y)$ 是潜在表示向量 $Z$ 与标签 $Y$ 之间的互信息，衡量 $Z$ 对 $Y$ 的预测能力；
$I (Z, X)$ 是 $Z$ 与图像 $X$ 之间的互信息；
$\beta$ 是权衡参数。

特征空间变化

左侧： $Z_1$ 代表初始的与任务无关（task - agnostic）的特征表示，它所在的特征空间包含大量与特定任务无关信息。 $I_1$ 是 $Z_1$ 与标签 $Y$ 的交集部分，体现了 $Z_1$ 中与任务相关的特征。
右侧：经过微调（Fine tune $Z_1 \to Z_2$ ）， $Z_2$ 是调整后的特征表示。为最大化 $R_{IB}$ ：
- 增大 $I (Z, Y)$ 项，使得 $Z_2$ 与 $Y$ 的重叠部分（即 $I_2$ ）相比 $Z_1$ 与 $Y$ 的重叠部分增大，意味着 $Z_2$ 对标签 $Y$ 有更强的预测能力，更具任务特异性（task - specific）。
- 减小 $I (Z, X)$ 项，让 $Z_2$ 与图像 $X$ 的重叠部分相比 $Z_1$ 减小，即过滤掉图像 $X$ 中与任务无关的特征。

总体而言，该微调方案通过优化目标函数，使特征表示从初始的任务无关状态转变为更具任务特异性、能更好预测标签且过滤掉无关信息的状态。

2-3：微调流程

这是病理全切片图像多实例学习（WSI - MIL）任务特定微调的工作流程图，主要分为三个阶段：

第一阶段：学习瓶颈（Stage 1: learn bottleneck ）

对病理全切片图像进行实例采样（Instance sampling），得到图像块集合（Bag of patches）。
通过实例编码器（Instance encoder）获取实例表示（Instance representation）。
利用聚合模块（Aggregate module）和分布估计器（Distribution estimator），结合蒙特卡罗采样（MC sampling）等操作拟合分布（Fit π ），学习信息瓶颈（IB）模块，生成实例掩码（Instance masks）。此阶段固定预训练的骨干网络参数，目的是通过IB模块筛选出关键实例 。

第二阶段：微调编码器（Stage 2: fine - tune encoder ）

固定第一阶段生成的掩码，将图像块集合提炼为稀疏集合（Sparse representation），减少计算量。
对WSI头部（即分类相关部分）进行微调，并对骨干网络进行端到端的调整。该过程仅使用部分实例（Using partial instances），进一步学习任务特定的特征表示。

第三阶段：用新编码器重新训练WSI头部（Stage 3: retrain WSI head with new encoder ）

利用经过微调后的所有实例特征（Using all instances），训练WSI - MIL分类器头部，完成整个模型的训练，使其能更好地完成病理全切片图像的分类任务。

三、实验

3-1：数据集和任务

作者使用五个数据集评估方法。

在包含组织病理学和细胞病理学图像的三个数据集上评估IN - 1K、SSL和作者方法的切片级分类性能：

两个公开的组织病理学WSI数据集，用于肿瘤/正常二分类的Camelyon - 16 [5]
用于肿瘤亚型分类的癌症基因组图谱乳腺癌数据集（TCGA - BRCA） [34]

引入一个内部细胞病理学WSI数据集，即用于宫颈癌早期筛查的液基细胞学（LBP - CECA），以验证方法在组织病理学和细胞病理学上的通用性。

除在封闭数据集上的原始评估外，作者还在Camelyon - 16 - C（由Camelyon - 16通过随机合成域迁移生成）和来自五个不同中心的Camelyon - 17 [29]上评估方法的泛化性，这种情况在实际病理诊断中频繁出现，一直阻碍着自动WSI分析在现实世界中的应用。

数据集详情

Camelyon - 16 [2]是用于乳腺癌转移检测（肿瘤/正常分类）的公开数据集，包含270个训练集和130个测试集。经过预处理后，在20倍放大下共获得约150万个图像块。

癌症基因组图谱乳腺癌数据集（TCGA - BRCA）[6]是用于乳腺浸润性癌队列中浸润性导管癌（IDC）与浸润性小叶癌（ILC）亚型分类的公开数据集。将WSI在20倍放大下分割为不重叠的含组织图像块，从1038个WSI中整理出约200万个图像块。

液基细胞学宫颈癌早期病变筛查数据集（LBP - CECA）用于验证作者的方法在细胞病理学上的通用性。该WSI包含4个类别（阴性、意义不明确的非典型鳞状上皮细胞（ASC - US）、低级别鳞状上皮内病变（LSIL）、不典型鳞状细胞 - 不除外高度鳞状上皮内病变/高级别鳞状上皮内病变（ASC - H/HSIL） [4]），在20倍放大下分割为重叠度为25、大小为256的图像块，从1393个WSI中整理出约320万个图像块。

Camelyon - 16 - C是通过对Camelyon - 16 [2]测试集进行随机合成域迁移生成的模拟数据集。包含三种干扰：根据[8]中的代码实现的Jpeg压缩、亮度和色调调整，严重程度均为2 。

Camelyon - 17 [3]数据集来自五个不同中心，是Camelyon - 16的官方扩展挑战。在本文中，作者将所有肿瘤阳性WSI和随机选择的阴性WSI组合，构成真实域迁移测试集，最终抽取164个WSI用于测试。

预处理方面，作者遵循CLAM - SB [30]中的操作，主要包括HSV、模糊、阈值处理和轮廓方法，以定位每个WSI中的组织区域。然后从组织区域提取20倍放大下大小为256×256的不重叠图像块。

3-2：预训练和微调

作者的工作主要聚焦于微调方法。

由于良好的预训练初始化能带来更好的微调性能，作者采用主流预训练方法：

1）ImageNet - 1k（IN - 1K）数据预训练。
2）使用SimCLR [11]、MoCo [17]和DINO [8]的SSL预训练。
3）对于Camelyon - 16和LBP - CECA，因存在全面的肿瘤区域注释，作者使用注释对图像块骨干网络进行预训练，这作为作者方法的性能上限。

在骨干网络微调阶段，作者使用AdamW优化器，以25个训练轮次对骨干网络和WSI模型进行端到端微调，WSI的批量大小为1（实例袋大小为512），骨干网络学习率为1e - 5，WSI头部学习率为1e - 3 。

对于ResNet中的批量归一化（BN）层，作者将其转为评估模式，以在微调期间固定统计量，因为作者发现由于实例间的相似性，实例袋中前K个实例的分布在估计统计量方面存在局限。

骨干网络的浅层被冻结，因其仅关注形态特征，而深层关注语义特征。

3-3：切片级分类

评估指标

由于三个数据集均存在类别不平衡问题，所有实验均报告宏平均AUC和宏平均F1分数。

对于Camelyon - 16，将官方训练集按9:1的比例随机划分为训练集和验证集，实验重复进行5次，并报告官方测试集的结果。对于TCGA - BRCA，作者采用与HIPT [9]相同的运行设置进行10折交叉验证。

此外，LBP - CECA数据集按6:1:3的比例随机划分为训练集、验证集和测试集，实验同样进行5次。报告多次运行或交叉验证运行的性能指标的均值和标准差。

与基线方法比较

分类结果总结在表1中。

作者首先展示全图像块监督的结果作为性能上限，然后直接评估几种经典的WSI - MIL方法，包括RNN - MIL [7]、AB - MIL [19]、DS - MIL [25]、CLAM - SB [30]、TransMIL [38]、DTFD - MIL [45] 。

由于来自IN - 1K预训练ResNet - 50的骨干网络特征不合适，所有这些WSI - MIL基线方法在三个分类任务中的性能都相对较低。

然后作者对骨干网络应用微调（FT），通过包括CLAM - SB（纯全局注意力，实例间无交叉）、TransMIL（长序列自注意力）和DTFD - MIL（多层注意力路径后聚合，适用于图像块不平衡）三种WSI架构获取用于WSI分类的特征。

结果表明，在AUC指标下，配备FT特征后性能有明显且一致的提升。基于IN - 1K预训练的普通FT，CLAM - SB在Camelyon - 16、TCGA - BRCA和LBP - CECA上的性能分别相对提升9.26%、6.37%、5.47% 。

在相同条件下，TransMIL和DTFD - MIL在三个数据集上都取得了新的最优结果（SOTA），且能获得更好的相对提升，特别是在LBP - CECA上，相比CLAM - SB分别有8.00%和8.85%的增长。在F1指标下也有类似的性能提升。

对于表1的最后两行，作者比较了简单的平均/最大池化训练和KNN评估。具有竞争力的结果表明，作者在MIL框架骨干网络中提出的FT方法可以提升WSI分类性能，即使是对于最简单的特征级平均/最大池化。

此外，任务特定特征有助于作者更好地挖掘不同WSI - MIL架构的特性。显然，在LBP - CECA中，更复杂的架构TransMIL和DTFD - MIL在冻结预训练参数时无法表现出理想性能。相比之下，通过针对特定目标微调骨干网络，它们的能力可以进一步增强。

而且，不同特征聚合方法的效果因任务而异。在肿瘤区域较小的Camelyon - 16中，最大池化聚合表现出更好的性能，而在TCGA - BRCA中平均池化效果更好。

3-4：自监督学习与微调的结合

在本节中，作者通过将SSL与FT相结合，进一步提升切片级分类性能。

与基线方法比较

由于在小的组织病理学图像块中没有明显的单一语义对象，作者主要比较基于对比学习或增强的SSL方法，如MoCo [17]、DINO [8]和SimCLR [11] 。

为进行公平比较，作者展示了先前工作[9, 10]中SSL方法的结果。所有结果均基于相同的CLAM - SB [30] WSI架构。

实验结果总结在表2中。与普通的IN - 1K相比，MoCo和DINO（结合FT）分别实现了7.85%和7.39%的持续增长。

此外，与结合FT的IN - 1K相比，它们分别有1.39%和0.96%的小幅增长。通过SSL，从WSI的所有图像块中学习到内在的与任务无关的特征，在对所有模块应用作者提出的FT后，可以从标签和部分数据中提炼出任务特定特征。

在这种SSL与FT结合的范式中，全面探索了数据和标签，从而实现先进的WSI分析。

3-5：域迁移下的泛化性

在本节中，作者评估切片级分类模型在域迁移[46] [20]情况下的泛化性，这对于实际临床应用至关重要，因为医院间病理图像处理在染色、样本制备和成像设备方面存在差异。

评估指标

Camelyon - 16 - C数据集由Camelyon - 16测试集通过合成域迁移生成，采用[46]中提出的亮度、JPEG和色调的随机组合。

对于Camelyon - 17，因其与Camelyon - 16相似但来自五个不同医疗中心，作者从每个中心随机收集30个样本，以评估自然域迁移下的鲁棒性。

作者直接在Camelyon - 16 - C和来自Camelyon - 17的150个额外数据上评估模型，运行次数为5次，设置与4.1节相同。

由于篇幅限制，结果的标准差未列出，更清晰全面的比较见附录。

与基线方法比较

泛化性结果评估总结在表3中。

结果表明，在F1指标下，为WSI头部配备微调特征后性能有一致提升：总体而言，通过使用所提出的微调方法，所有模型在一定程度上都能抵抗域迁移。

与冻结IN - 1K参数相比，最大池化在Camelyon - 16 - C和Camelyon - 17上分别获得了18.43%和18.86%的显著性能提升。CLAM - SB分别实现了10.91%、8.33%的提升。TransMIL分别实现了6.28%、4.11%的提升。DTFD - MIL分别实现了2.90%、11.30%的提升。

相比之下，尽管DTFD - MIL对不同域已有一定鲁棒性，但其泛化性仍可通过作者提出的FT优化进一步提升。

有趣的是，在AUC指标下的性能提升远小于F1指标。基于注意力的三种池化方法在F1指标下，在Camelyon - 16 - C和Camelyon - 17上分别实现了6.70%和7.91%的平均提升，而在AUC指标下仅为2.93%和2.98%，这表明WSI - MIL模型的分类能力（以F1衡量）可能比排序能力（以AUC衡量）弱得多。

然而，从敏感性和特异性角度看，医生在临床诊断中可能更关注F1而非AUC。最重要的是，模型在实际应用中部署后分类阈值通常保持固定，这体现了作者方法在实际应用中的更有意义的贡献。

3-6：可解释性和可视化

在此，作者进一步展示微调特征带来的可解释性提升。

如图4所示，将CLAM - SB [30]的注意力分数可视化为热图，以确定感兴趣区域（ROI）并解释用于诊断的重要形态。

显然，具有微调特征的模型更关注肿瘤区域。

四、项目复现思路

环境配置

基础依赖

安装PyTorch和NumPy（需匹配CUDA版本）：

pip install torch numpy

关键库安装

• openslide-python：用于读取WSI文件（需先安装系统依赖）：

  sudo apt-get install openslide-tools  # Ubuntupip install openslide-python

• nvidia-dali-cuda110：加速数据预处理（CUDA 11.0版本）：

  pip install --extra-index-url https://developer.download.nvidia.com/compute/redist nvidia-dali-cuda110

其他依赖

根据requirements.txt安装剩余包：

pip install -r requirements.txt

Stage-1a: 基线模型训练

生成无重叠图像块（Patches）

脚本: create_patches.sh

• 作用：将WSI分割为固定大小的无重叠图像块。

• 输入：WSI文件（通常为.svs格式）存放于DATA_DIR。

• 输出：图像块保存至PATCHES_DIR。

• 关键参数示例：

# create_patches.sh示例内容
python create_patches.py \--source DATA_DIR/wsi/ \--save_dir PATCHES_DIR/ \--patch_size 256 \--segmentation --mask_level 0 \--stitch --patch_level 0 \--preset csv --patch \--step_size 256  # 无重叠

• 执行命令：

bash create_patches.sh

提取图像块特征

脚本: create_feature.sh

• 作用：使用预训练模型（如ResNet50）提取图像块特征。

• 输入：Stage-1a生成的图像块。

• 输出：特征文件（.h5或.pt格式）保存至FEATURES_DIR。

• 关键参数示例：

python extract_features.py \--data_h5_dir PATCHES_DIR/ \--data_slide_dir DATA_DIR/wsi/ \--csv_path DATASET.csv \--feat_dir FEATURES_DIR/ \--batch_size 64 \--slide_ext .svs

• 执行命令：

bash create_feature.sh

训练基线WSI分类模型

脚本: train.sh

• 作用：基于CLAM框架训练注意力多实例学习模型。

• 输入：Stage-1b生成的特征文件。

• 输出：模型权重保存至RESULTS_DIR。

• 关键参数示例：

python main.py \--drop_out --early_stopping \--weighted_sample --task task_name \--features_dir FEATURES_DIR/ \--split_dir SPLIT_DIR/ \--results_dir RESULTS_DIR/ \--model_type clam_sb \--n_classes 2

• 执行命令：

bash train.sh

Stage-1b: 变分信息瓶颈（VIB）训练

脚本: vib_train.sh

• 作用：在基线模型基础上引入变分信息瓶颈，增强任务相关特征。

• 改动点：模型加入随机层，损失函数包含KL散度项。

• 执行命令：

bash vib_train.sh  # 参数与train.sh类似，需指定--model_type vib

Stage-2: 端到端微调（Top-K区域）

提取Top-K重要区域

脚本: extract_topk_rois.sh

• 作用：使用VIB模型推断并选择每个WSI中最关键的K个图像块。

• 输出：包含Top-K图像块路径的.pt文件。

• 关键参数：

python extract_topk.py \--model_path RESULTS_DIR/vib_model.pth \--k 100  # 选择前100个块

• 执行命令：

bash extract_topk_rois.sh

端到端微调

脚本: e2e_train.sh

• 作用：基于Top-K区域，联合微调图像块编码器和WSI分类头。

• 关键改动：

• 使用端到端训练（而非固定特征）。

• 仅对Top-K区域计算损失。

• 执行命令：

bash e2e_train.sh

Stage-3: 使用微调后的骨干网络

重新生成特征

使用Stage-2微调后的编码器提取特征：

bash create_feature.sh  # 需修改特征提取脚本中的模型路径

重新训练WSI分类头

重复Stage-1a或Stage-1b，但使用新特征：

bash train.sh  # 更新--features_dir参数

常见问题

OpenSlide安装失败
• 确保系统已安装libopenslide-dev（Linux）或从官方下载二进制文件（Windows）。
CUDA版本不匹配
• nvidia-dali-cuda110需CUDA 11.x。若使用其他版本，替换为nvidia-dali-cudaXX（XX为CUDA主版本）。
内存不足
• 减少--batch_size或使用更小的k值（Stage-2）。

注意！请根据实际数据路径和任务调整脚本参数。

结束语

本期推文的内容就到这里啦，如果需要获取医学AI领域的最新发展动态，请关注小罗的推送！如需进一步深入研究，获取相关资料，欢迎加入我的知识星球！

小罗碎碎念

一、文献概述

二、重点关注

2-1：T - SNE可视化

2-2：基于变分信息瓶颈（IB）的微调原理

2-3：微调流程

三、实验

3-1：数据集和任务

3-2：预训练和微调

3-3：切片级分类

3-4：自监督学习与微调的结合

3-5：域迁移下的泛化性

3-6：可解释性和可视化

四、项目复现思路

环境配置

Stage-1a: 基线模型训练

Stage-1b: 变分信息瓶颈（VIB）训练

Stage-2: 端到端微调（Top-K区域）

Stage-3: 使用微调后的骨干网络

常见问题

注意！请根据实际数据路径和任务调整脚本参数。

相关文章：