当前位置：首页 > news >正文

【论文阅读 | CVPR 2024 |Fusion-Mamba ：用于跨模态目标检测】

news 来源：原创 2025/8/23 17:58:40

论文阅读 | CVPR 2024 |Fusion-Mamba ：用于跨模态目标检测

1.摘要&&引言
2.方法
- 2.1 预备知识
- 2.2 Fusion-Mamba
- - 2.2.1 架构
  - 特征提取与多模态融合（FMB模块）
  - FMB的应用与输出
  - 2.2.2 关键组件
  - - 3.2.2.1 SSCS 模块：浅层跨模态特征交互
    - 3.2.2.2 DSSF 模块：深层跨模态特征关联
    - 3.2.2.3 特征增强与融合
  - 2.2.3 损失函数
- 2.3 与基于 Transformer 的融合方法对比
3. 实验
- 3.1 实验设置
- - 3.1.1 数据集
  - 3.1.2 评估指标
  - 3.1.3 实现细节
- 3.2 与现有最优方法的对比
- - 3.2.1 LLVIP数据集
  - 3.2.2 M³FD 数据集
  - 3.2.3 FLIR-Aligned 数据集
  - 3.2.4 热力图可视化
- 3.3 消融实验
- - 3.3.1 SSCS 和 DSSF 模块的影响
  - 3.3.2 FMB 位置的影响。
  - 3.3.3 DSSF 模块数量的影响。
  - 3.3.4 DSSF 模块双向注意力的影响
4. 结论

在这里插入图片描述

题目：Fusion-Mamba for Cross-modality Object Detection

会议： Computer Vision and Pattern Recognition（CVPR）

论文：https://arxiv.org/abs/2404.09146

代码：未公开

年份：2024

1.摘要&&引言

跨模态融合通过有效整合不同模态的互补信息，显著提升了目标检测性能，使其在更广泛的应用场景中更具实用性和鲁棒性。
现有融合策略通常通过精心设计的神经网络模块来结合不同类型的图像或融合不同主干特征。
然而，这些方法忽视了模态差异对跨模态融合性能的影响 —— 由于不同模态的相机焦距、位置和角度差异，其特征难以有效融合。

本文中，基于改进的 Mamba 与门控机制，通过在隐藏状态空间中关联跨模态特征来研究跨模态融合。

我们设计了 Fusion-Mamba 模块（FMB），将跨模态特征映射到隐藏状态空间进行交互，从而减少跨模态特征差异，增强融合特征的表示一致性。FMB 包含两个模块：状态空间通道交换（SSCS）模块促进浅层特征融合，双状态空间融合（DSSF）模块实现隐藏状态空间的深层融合。在公共数据集上的大量实验表明，我们的方法在 M³FD 数据集上 mAP 提升 5.9%，在 FLIR-Aligned 数据集上提升 4.9%，超越了现有最优方法，展现了卓越的目标检测性能。据我们所知，这是首次探索 Mamba 在跨模态融合中的潜力，并为跨模态目标检测建立了新基线。

在这里插入图片描述

图1. 热力图可视化。(a)和(b)为初始RGB和IR输入图像；©和(d)为使用YOLOv8单模态生成的热力图；(e)为基于CNN融合模块的YOLO-MS热力图；(f)和(g)为基于Transformer融合模块的ICAFusion和CFT热力图；(h)为我们的FMB热力图，其定位效果更佳。

在这里插入图片描述

图2. 所提出的Fusion-Mamba方法架构。检测网络包含双流特征提取网络和三个Fusion-Mamba模块（FMB），其颈部和头部与YOLOv8相同。顶部是我们的检测框架， $\phi_{i}$ 和 $\varphi_{i}$ 分别是RGB和IR分支的卷积模块，用于生成 $F_{R_{i}}$ 和 $F_{IR_{i}}$ 特征； $\hat{F}_{R_{i}}$ 和 $\hat{F}_{IR_{i}}$ 是通过FMB增强的特征图； $P_{3}$ 、 $P_{4}$ 和 $P_{5}$ 是增强特征图的求和输出，作为颈部最后三个阶段的特征金字塔输入。底部展示了FMB的设计细节。

本文提出 Fusion-Mamba 方法，旨在隐藏状态空间中融合特征，为跨模态特征融合开辟新范式。我们受 Mamba 启发，利用其线性复杂度构建隐藏状态空间，并通过门控机制进一步改进，实现更深层、更复杂的融合。我们的 Fusion-Mamba 方法核心在于创新的 Fusion-Mamba 模块（FMB），如图 2 所示。在 FMB 中，我们设计了状态空间通道交换（SSCS）模块用于浅层特征融合，以提升跨模态特征的交互能力；以及双状态空间融合（DSSF）模块，用于构建隐藏状态空间以实现跨模态特征关联与互补。这两个模块有助于减少融合过程中的模态差异，如图 1（h）所示，其热力图表明我们的方法更有效地融合了特征，使检测器更聚焦于目标。本工作的贡献如下：

1）所提出的 Fusion-Mamba 方法探索了 Mamba 在跨模态融合中的潜力，增强了融合特征的表示一致性。我们基于门控机制改进的 Mamba，构建了跨模态交互的隐藏状态空间，以减少跨模态特征差异。
2）我们设计了包含两个模块的 Fusion-Mamba 块：状态空间通道交换（SSCS）模块促进浅层特征融合，双状态空间融合（DSSF）模块实现隐藏状态空间的深层融合。
3）在三个公共 RGB-IR 目标检测数据集上的大量实验表明，我们的方法实现了现有最优性能，为跨模态目标检测方法提供了新基线。

2.方法

2.1 预备知识

状态空间模型

状态空间模型（SSMs）常用于表示线性时不变系统，其通过中间隐状态 h (t)∈ℝⁿ处理一维输入序列 x (t)∈ℝ，生成输出 y (t)∈ℝ。从数学上看，SSMs 通常表示为线性常微分方程（ODEs）：

$\begin{aligned} h'(t) &= A h(t) + B x(t), \\ y(t) &= C h(t) + D x(t), \end{aligned}$

其中系统行为由一组参数定义，包括状态转移矩阵 A∈ℝⁿ×ⁿ、投影参数 B、C∈ℝⁿ×¹，以及跳跃连接 D∈ℝ。为简化表述，可通过设置 D=0 移除 D x (t) 项。

离散化

式 1 中 SSMs 的连续时间特性在深度学习场景中应用时面临重大挑战。为解决此问题，需通过离散化过程将 ODEs 转换为离散函数，这是确保模型与输入数据中底层信号采样率对齐、促进高效计算操作的关键。考虑输入 xₖ∈ℝᴸ×ᴰ（遵循 [40] 的长度为 L 的信号流中的采样向量），时间尺度参数 Δ 的引入允许根据零阶保持（ZOH）原理，将连续参数 A 和 B 转换为离散形式 Ã 和 B̃。
因此，式 1 离散化为：
$\begin{aligned} hₖ &= \tilde{A} h_{k-1} + \tilde{B} xₖ, \\ y(t) &= \tilde{C} hₖ + D xₖ, \\ \tilde{A} &= e^{ΔA}, \\ \tilde{B} &= (ΔA)^{-1}(e^{ΔA} - I)ΔB, \\ \tilde{C} &= C, \end{aligned}$
其中 B、C∈ℝᴰ，I 为单位矩阵。离散化后，SSMs 通过具有结构化卷积核 K̃∈ℝᴰ的全局卷积计算：
$\tilde{K}, \quad \tilde{K} = (C \tilde{B}, C \tilde{A} \tilde{B}, \cdots, C \tilde{A}^{L-1} \tilde{B}). \quad (3)$

基于式 2 和式 3，Mamba 设计了一种简单的选择机制，根据输入 ### 参数化 Δ、A、B 和 C 的 SSM 参数，用于 1D 语言序列建模中沿序列长度维度选择性传播或遗忘信息。

2D 选择性扫描机制

2D 视觉数据与 1D 语言序列的不兼容性使得 Mamba 直接应用于视觉任务时存在不足。例如，2D 空间信息在视觉任务中至关重要，而在 1D 序列建模中仅占次要地位，这种差异导致感受野有限，无法捕捉与未探索块的潜在相关性。中引入 2D 选择性扫描（SS2D）机制以解决上述挑战，其概述如图 3 所示。

在这里插入图片描述

图3. RGB图像上二维选择性扫描（SS2D）的示意图。首先，图像经过扫描扩展，生成四个不同的特征序列；随后，每个序列独立通过S6块处理；最后，通过扫描合并S6块的输出，生成最终的二维特征图。

SS2D 首先将图像块沿四个不同方向扫描扩展，生成四个独立序列，这种四向扫描方法确保特征图中的每个元素包含不同方向上所有其他位置的信息，从而在无需计算复杂度线性增加的情况下建立全面的全局感受野。随后，每个特征序列通过选择性扫描状态空间序列模型（S6）处理，最后聚合特征序列以重建 2D 特征图。
SS2D 是视觉状态空间（VSS）块的核心元素，如图 2 所示，将用于构建跨模态特征融合的隐藏状态空间。

2.2 Fusion-Mamba

2.2.1 架构

模型架构如图 2 所示。其检测主干包含双流特征提取网络和三个 Fusion-Mamba 模块（FMB），检测网络包含用于跨模态目标检测的颈部和头部。

在这里插入图片描述

特征提取与多模态融合（FMB模块）

特征提取网络从 RGB 图像和红外（IR）图像中分别提取局部特征，记为 $F_{R_i}$ （RGB局部特征）和 $F_{IR_i}$ （IR局部特征）。

在这里插入图片描述

为减少跨模态特征差异并增强融合一致性，将 $F_{R_i}$ 和 $F_{IR_i}$ 输入多模态融合块（FMB）。FMB的核心流程如下：

浅层特征融合（SSCS模块）：
首先通过状态空间通道交换（State Space Channel Swap, SSCS）模块对 $F_{R_i}$ 和 $F_{IR_i}$ 进行浅层交互，生成交互特征 $\tilde{F}_{R_i}$ （RGB交互特征）和 $\tilde{F}_{IR_i}$ （IR交互特征）。
深层特征融合（DSSF模块）：
交互特征进一步输入双状态空间融合（Dual State Space Fusion, DSSF）模块，在隐藏状态空间中完成深层特征融合，生成互补特征 $\bar{F}_{R_i}$ （RGB互补特征）和 $\bar{F}_{IR_i}$ （IR互补特征）。
局部特征增强：
将原始特征与互补特征逐元素相加，增强局部表征能力：
$\hat{F}_{R_i} = F_{R_i} + \bar{F}_{R_i}, \quad \hat{F}_{IR_i} = F_{IR_i} + \bar{F}_{IR_i} \tag{A}$
其中 $\hat{F}_{R_i}$ 和 $\hat{F}_{IR_i}$ 表示增强后的RGB和IR局部特征。
融合特征生成：
增强特征直接相加生成最终融合特征 $P_i$ ：
$P_i = \hat{F}_{R_i} + \hat{F}_{IR_i} \tag{B}$

FMB的应用与输出

FMB仅应用于模型的最后三个阶段（生成 $P_3$ 、 $P_4$ 、 $P_5$ ），这些融合特征作为 YOLOv8 颈部（Neck）和头部（Head）的输入，最终输出目标检测结果（如图 4 所示）。
在这里插入图片描述

2.2.2 关键组件

给定输入的 RGB 图像 $I_R$ 和红外（IR）图像 $I_{IR}$ ，首先通过一系列卷积块提取局部特征。具体而言，RGB 分支的第 $i$ 阶段局部特征 $F_{R_i}$ 和 IR 分支的第 $i$ 阶段局部特征 $F_{IR_i}$ 可表示为：
$F_{R_i} = \phi_i \circ \phi_{i-1} \circ \cdots \circ \phi_1(I_R), \quad F_{IR_i} = \psi_i \circ \psi_{i-1} \circ \cdots \circ \psi_1(I_{IR})$
其中 $\phi_i$ 和 $\psi_i$ 分别表示 RGB 和 IR 分支第 $i$ 阶段的卷积块

现有跨模态融合方法主要关注空间特征的集成，但未充分考虑模态间的特征差异，导致融合模型难以有效建模不同模态目标间的相关性，最终降低模型的表示能力。受 Mamba[8] 在状态空间序列建模中的强大能力启发，我们设计了融合 Mamba 块（Fusion-Mamba Block, FMB），通过构建跨模态特征交互与关联的隐藏状态空间，解决上述问题。FMB 的核心由两个关键模块组成：状态空间通道交换（State Space Channel Swap, SSCS）模块和双状态空间融合（Dual State Space Fusion, DSSF）模块，二者协同减少跨模态特征差异，增强融合特征的表示一致性。算法 1 详细给出了 SSCS 和 DSSF 模块的计算流程。

3.2.2.1 SSCS 模块：浅层跨模态特征交互

SSCS 模块的目标是通过通道交换操作和 VSS 块（见图 2）增强跨模态特征的浅层交互，丰富通道多样性以提升融合性能。具体步骤如下：

在这里插入图片描述

通道交换操作（CS）：
首先通过通道交换生成 RGB 和 IR 的新局部特征 $T_{R_i}$ 和 $T_{IR_i}$ ，公式为：
$T_{R_i} = CS(F_{R_i}, F_{IR_i}), \quad T_{IR_i} = CS(F_{IR_i}, F_{R_i}) \tag{5}$
其中 $CS(\cdot, \cdot)$ 表示通道交换操作，实现方式为：将 $F_{R_i}$ 和 $F_{IR_i}$ 沿通道维度均分为四部分，从 $F_{R_i}$ 中选择第 1、3 部分，从 $F_{IR_i}$ 中选择第 2、4 部分，按顺序拼接后生成新的 RGB 局部特征 $T_{R_i}$ ；IR 局部特征 $T_{IR_i}$ 以类似方式生成（交换通道选择顺序）。
浅层融合增强：
对 $T_{R_i}$ 和 $T_{IR_i}$ 分别应用 VSS 块（VSS Block），进一步强化跨模态交互：
$\tilde{F}_{R_i} = VSS(T_{R_i}), \quad \tilde{F}_{IR_i} = VSS(T_{IR_i}) \tag{6}$
其中 $VSS(\cdot)$ 表示图 2 所示的 VSS 块（基于门控机制的状态空间模型[21]）， $\tilde{F}_{R_i}$ 和 $\tilde{F}_{IR_i}$ 分别为 RGB 和 IR 分支的浅层融合特征输出。

3.2.2.2 DSSF 模块：深层跨模态特征关联

为进一步减少模态差异，DSSF 模块通过在隐藏状态空间中建模跨模态目标相关性，实现深层特征融合。其核心是利用门控机制构建双向信息交互，具体步骤如下：

在这里插入图片描述

隐藏状态投影：
首先通过无门控的 VSS 块 $P_{\text{in}}(\cdot)$ 将浅层融合特征 $\tilde{F}_{R_i}$ 和 $\tilde{F}_{IR_i}$ 投影到隐藏状态空间：
$y_{R_i} = P_{\text{in}}(\tilde{F}_{R_i}), \quad y_{IR_i} = P_{\text{in}}(\tilde{F}_{IR_i}) \tag{7}$
其中 $y_{R_i}$ 和 $y_{IR_i}$ 表示 RGB 和 IR 分支的隐藏状态特征。
门控参数生成：
同时，通过双流门控操作生成门控参数 $z_{R_i}$ 和 $z_{IR_i}$ ，用于调制隐藏状态转移：
$z_{R_i} = f_{\theta_i}(\tilde{F}_{R_i}), \quad z_{IR_i} = g_{\omega_i}(\tilde{F}_{IR_i}) \tag{8}$
其中 $f_{\theta_i}(\cdot)$ 和 $g_{\omega_i}(\cdot)$ 分别表示 RGB 和 IR 分支的带参数门控函数（参数为 $\theta_i$ 和 $\omega_i$ ）。
隐藏状态交互与调制：
利用门控参数 $z_{R_i}$ 和 $z_{IR_i}$ 对隐藏状态 $y_{R_i}$ 、 $y_{IR_i}$ 进行双向调制，实现跨模态信息互补：
$y'_{R_i} = y_{R_i} \cdot z_{R_i} + z_{R_i} \cdot y_{IR_i}, \quad y'_{IR_i} = y_{IR_i} \cdot z_{IR_i} + z_{IR_i} \cdot y_{R_i} \tag{9}$
其中 $y'_{R_i}$ 和 $y'_{IR_i}$ 为交互后的隐藏状态特征， $\cdot$ 表示逐元素乘积。式(9)通过门控机制动态调整跨模态信息的传递权重，增强隐藏状态空间的关联性。
投影回原空间与残差连接：
将交互后的隐藏状态 $y'_{R_i}$ 、 $y'_{IR_i}$ 通过投影操作 $P_{\text{out}}(\cdot)$ （含线性变换）映射回原始特征空间，并与浅层融合特征 $\tilde{F}_{R_i}$ 、 $\tilde{F}_{IR_i}$ 残差连接，生成互补特征：
$\overline{F}_{R_i} = P_{\text{out}}(y'_{R_i}) + \tilde{F}_{R_i}, \quad \overline{F}_{IR_i} = P_{\text{out}}(y'_{IR_i}) + \tilde{F}_{IR_i} \tag{10}$

3.2.2.3 特征增强与融合

为进一步增强局部特征的表示能力，将原始特征 $F_{R_i}$ 、 $F_{IR_i}$ 与互补特征 $\overline{F}_{R_i}$ 、 $\overline{F}_{IR_i}$ 逐元素相加，得到增强后的局部特征：
$\hat{F}_{R_i} = F_{R_i} + \overline{F}_{R_i}, \quad \hat{F}_{IR_i} = F_{IR_i} + \overline{F}_{IR_i} \tag{11}$

在这里插入图片描述

算法 1 Fusion-Mamba 块（FMB）算法

2.2.3 损失函数

经过 FMB 增强的 RGB 和 IR 特征（即式(12) 中的 $\hat{F}_{R_i}$ 和 $\hat{F}_{IR_i}$ ）通过逐元素相加生成融合特征 $P_i$ ，作为 YOLOv8 颈部的输入以提升检测性能。总损失函数遵循经典目标检测框架 [12,13]，定义为：
$\mathcal{L} = \lambda_{\text{coord}} \mathcal{L}_{\text{coord}} + \mathcal{L}_{\text{conf}} + \mathcal{L}_{\text{class}} \tag{13}$
其中：

$\lambda_{\text{coord}}$ 是平衡定位损失 $\mathcal{L}_{\text{coord}}$ 权重的超参数；
$\mathcal{L}_{\text{conf}}$ 为置信度损失，用于衡量预测框与真实框的匹配程度；
$\mathcal{L}_{\text{class}}$ 为分类损失，用于优化目标的类别预测。
各损失项的具体实现细节可参考 Ultralytics YOLOv8 的官方文档 [jocher2022ultralytics]。

2.3 与基于 Transformer 的融合方法对比

现有基于 Transformer 的跨模态融合方法 [6,26] 通常采用以下流程：将 RGB 和 IR 特征展平后与卷积特征拼接，生成中间融合特征；再通过多头交叉注意力机制完成跨模态融合。然而，这类方法存在以下局限性：

模态差异建模不足：仅依赖空间交互（如注意力权重分配），难以有效捕捉跨模态目标间的深层相关性，导致融合特征的表示一致性受限。
局部信息丢失：全局注意力机制需展平特征图，破坏了局部空间结构，可能丢失细粒度的位置信息。

相比之下，本文提出的 FMB 块在跨模态融合中具有显著优势：

局部信息保留：通过沿四个方向扫描特征（如水平、垂直、对角线等），生成四组局部块，避免全局展平操作，在融合过程中有效保留特征的局部结构。
隐藏空间深度交互：将特征投影到隐藏状态空间，通过双向门控注意力机制（如 DSSF 模块中的门控参数 $z_{R_i}$ 和 $z_{IR_i}$ ）动态调制跨模态信息传递，抑制冗余特征并增强互补信息的融合。
计算效率更优：Transformer 的全局注意力机制时间复杂度为 $O(N^2)$ （ $N$ 为序列长度），而 FMB 基于 Mamba 的状态空间模型，时间复杂度仅为 $O (N)$ 。实验验证表明，在相同检测模型架构下，将基于 Transformer 的融合模块替换为 FMB 块，单张图像的推理时间可节省 7-19ms（详见实验部分）。

综上，FMB 通过局部信息保留、隐藏空间深度交互及高效计算机制，在减少跨模态差异的同时提升了融合效率，优于传统基于 Transformer 的融合方法。

3. 实验

3.1 实验设置

3.1.1 数据集

实验在三个广泛使用的可见光-红外（RGB-IR）基准数据集上进行评估，覆盖低光、多场景及昼夜环境，具体信息如下：

LLVIP：低光环境下的行人检测数据集，包含15,488对对齐的RGB-IR图像。数据采集于夜间低光照条件，聚焦行人目标检测。遵循官方划分，使用12,025对图像训练，3,463对测试。
M³FD：多模态多场景数据集，包含4,200对对齐的RGB-IR图像，覆盖不同光照（如强光、弱光）、季节（春、夏、秋、冬）和天气（晴、雨、雾）场景。数据涵盖自动驾驶和道路监控中常见的6个类别（行人、车辆、自行车等）。由于无官方划分，采用文献[18]的训练/测试分割。
FLIR：昼夜场景数据集，包含5个类别（人、汽车、自行车、狗、其他车辆）。遵循文献[38]，使用FLIR-Aligned子集，其中4,129对训练，1,013对测试。

3.1.2 评估指标

采用目标检测领域最常用的两个指标：

mAP₅₀：IoU阈值为0.50时的平均精度（Average Precision），反映模型对目标定位和分类的基础能力；
mAP：IoU阈值在0.50到0.95（步长0.05）范围内的平均精度，综合评估模型在不同重叠度下的鲁棒性。

此外，报告在A800 GPU上对输入尺寸为640×640的图像进行5次运行评估的平均推理时间（单位：ms），衡量模型的计算效率。

3.1.3 实现细节

所有实验基于双流框架[6]，在单张A800 GPU上完成。默认使用YOLOv5-l或YOLOv8-l作为主干网络（Backbone），颈部（Neck）和头部（Head）结构与对应YOLO版本保持一致。训练超参数设置如下：

批量大小（Batch Size）：4；
优化器：SGD，动量（Momentum）0.9，权重衰减（Weight Decay）0.001；
输入尺寸：640×640；
训练轮次（Epochs）：150；
初始学习率（Initial LR）：0.01；
Fusion-Mamba模块参数：SSCS模块数量1，DSSF模块数量8；
定位损失权重： $\lambda_{\text{coord}} = 7.5$ （其他超参数与YOLOv8默认配置一致）。

3.2 与现有最优方法的对比

为验证Fusion-Mamba的有效性，我们在LLVIP数据集上与两类方法对比：单模态检测方法（仅RGB或仅IR）和多光谱融合方法（同时利用RGB-IR特征）。实验结果如表1所示（此处假设表1为对比数据）。

在这里插入图片描述

3.2.1 LLVIP数据集

LLVIP作为低光行人检测数据集，单模态检测中IR模态因对光照不敏感，性能普遍优于RGB模态（如仅IR的Cascade R-CNN mAP为58.4%）。融合方法通过跨模态信息互补，理论上应优于单模态检测。

与单模态方法对比：基于ResNet50主干的RSDet（融合方法）在LLVIP上mAP为62.9%，较仅IR的Cascade R-CNN（58.4%）提升4.5%；而仅IR的简单YOLOv5框架（无融合）已达到61.9% mAP，显著优于部分融合方法（如DIVFusion仅9.9% mAP），说明低质量融合可能破坏IR模态的固有优势。
与多光谱融合方法对比：在相同YOLOv5主干下，Fusion-Mamba的mAP为62.8%（较仅IR的YOLOv5提升0.9%），较RSDet（61.3%）提升1.5%。核心优势源于SSCS模块的浅层通道交换（增强跨模态信息交互）和DSSF模块的深层门控融合（抑制冗余特征并捕捉互补信息），有效减少了模态差异，提升了融合特征的表示一致性。
与YOLOv8主干对比：基于YOLOv8-l的Fusion-Mamba进一步优化了性能，达到mAP₅₀=97.0%、mAP=64.3%，为当前LLVIP上的最优结果。

3.2.2 M³FD 数据集

我们将我们的方法与 7 种基于 YOLOv5 的现有最优检测器和 1 种基于 YOLOv7 的现有最优检测器进行比较。如表 2 所示，与基于相同 YOLOv5 主干的现有最优方法相比，我们的 Fusion-Mamba 在所有类别上使用 mAP₅₀和 mAP 指标均表现最佳；基于 YOLOv8 主干的方法在 People、Bus、Motorcycle 和 Truck 类别上实现了新的现有最优结果，同时 mAP₅₀和 mAP 指标进一步提升了 3% 和 4.4%。此外，尽管 YOLOv5 的特征表示能力低于 YOLOv7，我们使用 YOLOv5 主干的方法仍比基于 YOLOv7 的 SuperFusion 高出 1.5% mAP 和 mAP₅₀，这得益于我们 FMB 的有效性，提升了跨模态特征的固有互补性。

在这里插入图片描述

3.2.3 FLIR-Aligned 数据集

如表 3 所示，Fusion-Mamba 在 Aligned-FLIR 数据集上也表现最佳。与基于双流 YOLOv5 主干的 CrossFormer 相比，我们基于 YOLOv8 和 YOLOv5 的方法在 mAP₅₀上分别超越它们 5.6% 和 5%，在 mAP 上分别超越 4.9% 和 2.3%。我们还比 RSDet 高出 3.8% mAP₅₀和 5.6% mAP。在速度方面，我们使用 YOLOv5 的方法实现了最快速度，与基于 Transformer 的 CFT 和 CrossFormer 方法相比，一对图像的检测分别节省 7ms 和 19ms。在参数方面，我们基于 YOLOv5 的方法比 CrossFormer 方法节省约 100M 参数。尽管我们基于 YOLOv8 的方法比 YOLOv5 增加了约 40M 参数，但 mAP 显著提升了 2.6%。该结果表明，我们基于隐藏空间建模的方法更好地整合了不同模态之间的特征，抑制了模态差异，以最佳的性能和计算成本权衡增强了融合特征的表示能力。

在这里插入图片描述

3.2.4 热力图可视化

为直观展示我们模型的高性能，我们从三个实验数据集中各随机选择一对图像，可视化 P₅热力图，并与其他融合方法进行比较。如图 5 所示，与其他方法相比，我们的模型更聚焦于目标，而非分散或聚焦于无关部分。更多示例见补充材料。我们还在补充材料中可视化了目标检测结果，以评估我们方法的有效性。

在这里插入图片描述

3.3 消融实验

我们使用 FLIR-Aligned 数据集进行消融实验，以分别验证 SSCS 和 DSSF 模块的有效性，并进一步探索 DSSF 模块数量和位置的影响。特别地，我们还评估了 DSSF 模块双向注意力的效果。所有实验均基于 YOLOv8 主干进行。

3.3.1 SSCS 和 DSSF 模块的影响

FMB 中移除 SSCS 和 DSSF 的结果汇总于表 4。
在这里插入图片描述

移除 SSCS 模块后（表 4 第二行），检测器性能在 mAP₅₀和 mAP 上分别下降 2% 和 1.1%。原因在于，没有两模态特征的初始交换和浅层映射融合，在后续深层融合中特征差异未得到有效减少。同时，没有 DSSF（表 4 第三行），仅浅层融合交互无法在特征融合过程中有效抑制冗余特征并激活有效特征，导致检测器性能在 mAP₅₀和 mAP 上分别下降 2.5% 和 2.4%。同时移除 SSCS 和 DSSF，直接通过两局部模态特征相加获得融合特征（表 4 第四行），其性能在 mAP₅₀和 mAP 上分别显著下降 4.8% 和 7.6%。这些结果表明，FMB 的这两个组件对跨模态目标检测有效。

3.3.2 FMB 位置的影响。

遵循 [6,14] 的工作，我们也设置三个 FMB 用于特征融合。在此，我们进一步探索 FMB 位置的影响，即应在哪些阶段添加 FMB。我们选择三组多级特征：{P₂, P₃, P₅}、{P₂, P₄, P₅} 和 {P₃, P₄, P₅} 进行消融实验，其中 Pᵢ是使用 FMB 在第 i 阶段的融合特征。如表 5 所示，位置 {P₃, P₄, P₅} 在性能和计算复杂度之间实现了最佳权衡，因此我们默认选择此位置进行实验。

在这里插入图片描述

表 5. FLIR-Aligned 数据集上 FMB 位置的影响。

3.3.3 DSSF 模块数量的影响。

我们已在表 4 中验证了 DSSF 的有效性，在此进一步评估 DSSF 模块数量的影响，结果汇总于表 6。

在这里插入图片描述

我们选择四种 DSSF 数量（即 2、4、8、16），并保持其他模型设置与上述实验一致。可以看出，模块数量设置为 8 时实现最佳性能，8 个 DSSF 模块将达到饱和，增加数量会导致互补特征漂移，从而降低融合性能。

3.3.4 DSSF 模块双向注意力的影响

在这里插入图片描述

为进一步探索我们门控机制中 DSSF 模块双向注意力的有效性，我们分别移除 RGB 分支中的 IR 注意力（即式 9 中的 z_{IRᵢ}・y_{Rᵢ}）、IR 分支中的 RGB 注意力（即式 10 中的 z_{IRᵢ}・y_{Rᵢ}）以及双向注意力。结果如表 7 所示。移除 IR 注意力或 RGB 注意力后，由于减少了两特征间的注意力交互，mAP₅₀分别下降 1.6% 或 1.1%；当移除双向注意力时，DSSF 模块变为 VSS 块的堆叠，mAP₅₀下降 2%。值得注意的是，IR 和 RGB 注意力分支与其他分支共享权重，与移除双向注意力相比，这相当于仅添加激活函数和特征加法操作。因此，双向注意力的使用对模型参数和运行时间没有显著影响，但显著提升了检测性能。

4. 结论

本文提出了一种新颖的 Fusion-Mamba 方法，通过精心设计的 SSCS 模块和 DSSF 模块实现多模态特征融合。具体而言，SSCS 交换红外和可见光通道特征以实现浅层特征融合；随后，DSSF 进一步设计用于在基于 Mamba 的隐藏状态空间中实现更深层的多模态特征交互，门控注意力用于抑制冗余特征以增强特征融合的有效性。在三个公共 RGB-IR 数据集上进行的大量实验表明，我们的方法实现了现有最优性能，且推理效率高于 Transformer。我们的工作证实了 Mamba 在跨模态融合中的潜力，相信我们的工作能为 Mamba 在跨模态任务中的应用激发更多研究。

论文阅读 | CVPR 2024 |Fusion-Mamba ：用于跨模态目标检测

1.摘要&&引言

2.方法

2.1 预备知识

2.2 Fusion-Mamba

2.2.1 架构

特征提取与多模态融合（FMB模块）

FMB的应用与输出

2.2.2 关键组件

3.2.2.1 SSCS 模块：浅层跨模态特征交互

3.2.2.2 DSSF 模块：深层跨模态特征关联

3.2.2.3 特征增强与融合

2.2.3 损失函数

2.3 与基于 Transformer 的融合方法对比

3. 实验

3.1 实验设置

3.1.1 数据集

3.1.2 评估指标

3.1.3 实现细节

3.2 与现有最优方法的对比

3.2.1 LLVIP数据集

3.2.2 M³FD 数据集

3.2.3 FLIR-Aligned 数据集

3.2.4 热力图可视化

3.3 消融实验

3.3.1 SSCS 和 DSSF 模块的影响

3.3.2 FMB 位置的影响。

3.3.3 DSSF 模块数量的影响。

3.3.4 DSSF 模块双向注意力的影响

4. 结论

相关文章：