当前位置：首页 > news >正文

SiamMask中的分类分支、回归分支与Mask分支，有何本质差异？

news 来源：原创 2025/9/24 20:42:43

SiamMask中的分类分支、回归分支与Mask分支，有何本质差异？

- 一、引言
- 二、分支定位与任务目标
- 三、网络结构与感受野设计
- - 3.1 分类分支（Classification Head）
  - 3.2 回归分支（Regression Head）
  - 3.3 Mask分支（Mask Head）
- 四、输入特征与输出形式
- 五、损失函数与监督信号
- - 5.1 分类分支损失
  - 5.2 回归分支损失
  - 5.3 Mask分支损失
  - 5.4 总损失
- 六、三者协同工作流程
- 七、实验对比与可视化示例
- 八、小结与展望

本文是“Siam 系列网络深度解析”之三，重点对比并深入剖析SiamMask在跟踪与分割任务中，分类分支、回归分支和Mask分支的不同设计思路、网络结构与训练策略。

一、引言

SiamMask以多任务学习的方式，实现了目标跟踪（Tracking）与目标分割（Segmentation）的统一框架。模型共有三条并行分支：分类分支（Classification Head）、回归分支（Regression Head）和Mask分支（Mask Head）。虽然它们都基于同一个深度相关特征图 $g\in\mathbb R^{C\times H\times W}$ ，并且都执行二分类或回归操作，但在设计目标、网络结构、输入/输出粒度、损失函数及训练方式等方面均存在本质区别。

本篇文章将从以下角度展开：

分支定位与任务目标
网络结构与感受野设计
输入特征与输出形式
损失函数与监督信号
三者协同工作流程
实验对比与可视化示例

二、分支定位与任务目标

分支	任务目标	输出意义
分类分支	判断某空间位置是否为目标中心	前景概率热力图 $\mathbf S\in[0,1]^{1\times H\times W}$
回归分支	回归Anchor相对于真实框的偏移量	边界框偏移量 $\Delta=(l,t,r,b)\in\mathbb R^{4\times H\times W}$
Mask分支	对目标区域进行像素级前景/背景分割	掩膜概率图 $\hat M\in[0,1]^{1\times H_m\times W_m}$

分类分支：提供一个粗粒度的定位信号，告诉模型“目标的大致中心在哪里”。
回归分支：基于分类分支给定的位置，从每个Anchor出发，用4个通道精确地回归边界框。
Mask分支：在回归出的目标框内部，生成高分辨率的像素级掩膜，实现精细分割。

三、网络结构与感受野设计

3.1 分类分支（Classification Head）

典型实现：1~2层 $3\times3$ 卷积 + Sigmoid
感受野：适中，关注当前位置的上下文信息，以便区分前景/背景
输出分辨率：与输入特征等大（如 $H\times W=17\times17$ 或 $25\times25$ ）

示例代码：

self.cls_conv = nn.Conv2d(C, C, kernel_size=3, padding=1)
self.cls_score = nn.Conv2d(C, 1, kernel_size=1)
# forward:
feat = F.relu(self.cls_conv(g))    # [B,C,H,W]
score = torch.sigmoid(self.cls_score(feat))  # [B,1,H,W]

3.2 回归分支（Regression Head）

典型实现：同样是2~3层小卷积 + 无激活
感受野：与分类相近，但关注边缘位置的特征变化以便回归准确
输出分辨率： $4\times H\times W$ ，对应每个位置的 $l, t, r, b$ 值

示例代码：

self.reg_conv = nn.Conv2d(C, C, kernel_size=3, padding=1)
self.reg_offset = nn.Conv2d(C, 4, kernel_size=1)
# forward:
feat = F.relu(self.reg_conv(g))   # [B,C,H,W]
offset = self.reg_offset(feat)    # [B,4,H,W]

3.3 Mask分支（Mask Head）

典型实现：U-Net风格或多层卷积 + 上采样
感受野：更大，需要捕捉目标内部与边界细节
输出分辨率：高于跟踪特征图，通常为 $63\times63$ 或更高
关键组件：RoIAlign/Crop → 一系列卷积与反卷积 → Sigmoid

示例代码：

# RoIAlign后得到局部特征 [B,C,H,W]
x = roi_align(feature_map, boxes, output_size=(H,W))
x = F.relu(self.conv1(x))
x = F.relu(self.conv2(x))
x = F.convTranspose2d(x, ...)  # 上采样
mask = torch.sigmoid(self.conv_final(x))  # [B,1,H_m,W_m]

四、输入特征与输出形式

分支	输入特征	输出形式	下游依赖
分类分支	全局 DW-XCorr 特征 $g$	热力图 $\mathbf S$	决定回归与Mask的位置
回归分支	全局 DW-XCorr 特征 $g$	偏移量 $\Delta$	生成最终边界框
Mask分支	RoIAlign 裁剪特征	掩膜 $\hat M$	精细分割

分类分支和回归分支共享同一输入： $g\in\mathbb R^{C\times H\times W}$ 。
Mask分支通过RoIAlign从回归出的候选框中裁剪特征，得到局部高分辨率特征，用于掩膜预测。

五、损失函数与监督信号

5.1 分类分支损失

二元交叉熵：
$\mathcal L_{cls} = -\sum_{i,j}\bigl[y_{i,j}\log S_{i,j} + (1-y_{i,j})\log(1 - S_{i,j})\bigr]$

$y_{i,j}\in\{0,1\}$ ：某位置是否为前景Anchor
监督信号稀疏，仅中心Anchor或与GT匹配的Anchor为正样本

5.2 回归分支损失

Smooth L1 Loss：
$\mathcal L_{reg} = \sum_{c\in\{l,t,r,b\}} \sum_{i,j} \mathrm{SmoothL1}(\Delta_{c,i,j} - \Delta^*_{c,i,j})$

$\Delta^*$ ：Ground-Truth边界框与Anchor的真实偏移

5.3 Mask分支损失

像素级二元交叉熵：
$\mathcal L_{mask} = -\frac{1}{H_mW_m}\sum_{u,v}\bigl[M^*_{u,v}\log\hat M_{u,v} + (1-M^*_{u,v})\log(1-\hat M_{u,v})\bigr]$

$M^*_{u,v}\in\{0,1\}$ ：像素级前景/背景标签

5.4 总损失

多任务加权：
$\mathcal L_{total} = \lambda_{cls}\mathcal L_{cls} + \lambda_{reg}\mathcal L_{reg} + \lambda_{mask}\mathcal L_{mask}$
常见设定： $\lambda_{cls}=1,\lambda_{reg}=1.2,\lambda_{mask}=32$ 。

六、三者协同工作流程

特征提取：模板与搜索图通过Backbone、FPN提取多尺度特征。
DW-XCorr：得到全局匹配特征图 $g$ 。
分类分支：生成热力图 $\mathbf S$ ，选取得分最高的位置作为候选Anchor。
回归分支：对候选Anchor回归偏移，得到精确边界框。
Mask分支：对每个候选框进行RoIAlign裁剪，预测高分辨率掩膜。

七、实验对比与可视化示例

下面对比三者输出：

分类热力图：低分辨率，但清晰标出目标中心
回归框：粗略定位目标范围
Mask掩膜：高分辨率，精确描绘目标轮廓

+----------------------+----------------------+----------------------+
|    Classification    |     BBox Regression  |        Mask          |
+----------------------+----------------------+----------------------+
|    17×17 heatmap     |    4×17×17 offsets   |     63×63 mask       |
+----------------------+----------------------+----------------------+

（此处可插入示意图：热力图、边框图、掩膜图）

八、小结与展望

分类分支聚焦“哪个位置是目标”，为后续模块提供定位基准；
回归分支细化Anchor到精确框，实现尺度与位移回归；
Mask分支在局部框内做细粒度分割，获得目标轮廓。

三者分工明确、协同高效，共同构成了SiamMask的跟踪+分割能力。

下篇我们将撰写：

《分类分支 vs Mask分支：为什么不能一个分支包办所有任务？》
敬请期待！

SiamMask中的分类分支、回归分支与Mask分支，有何本质差异？

一、引言

二、分支定位与任务目标

三、网络结构与感受野设计

3.1 分类分支（Classification Head）

3.2 回归分支（Regression Head）

3.3 Mask分支（Mask Head）

四、输入特征与输出形式

五、损失函数与监督信号

5.1 分类分支损失

5.2 回归分支损失

5.3 Mask分支损失

5.4 总损失

六、三者协同工作流程

七、实验对比与可视化示例

八、小结与展望

相关文章：