当前位置：首页 > news >正文

RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

news 来源：原创 2025/9/11 8:16:34

在这里插入图片描述

标题：RAP:基于稀疏相关适配器的高效文本视频检索

原文链接：RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter - ACL Anthology

发表：ACL-2024(NLP领域CCF A类)

摘要

文本-视频检索（TVR）旨在将相关视频内容与自然语言查询进行匹配。目前，大多数先进的TVR方法都是基于大规模预训练的视觉语言模型（如CLIP）进行图像到视频的迁移学习。然而，对这些预训练模型进行全量微调以用于TVR会带来极高的计算成本。为此，我们提出使用稀疏相关适配器（RAP）进行高效的文本-视频检索，即通过少量参数化层对预训练模型进行微调。为适应文本-视频场景，我们赋予RAP两个不可或缺的特性：时间稀疏性和相关性。具体而言，我们提出了一个低秩调制模块，用于优化来自固定CLIP骨干网络的逐图像特征，该模块可突出视频特征中的显著帧，同时减轻时间冗余。此外，我们引入了一种异步自注意力机制，该机制首先选择响应性最高的视觉补丁，并通过可学习的时间和补丁偏移增强它们之间的相关性建模。在四个TVR数据集上进行的大量实验表明，与全量微调的方法以及其他参数高效微调方法相比，RAP取得了更优或相当的性能。

1 引言

文本-视频检索（TVR）（Gabeur等人，2020；Gorti等人，2022；He等人，2021a；Lei等人，2021；Luo等人，2022；Ma等人，2022；Wang等人，2022）是多模态研究领域中的一项关键任务，旨在根据文本查询在视频库中找到最相关的视频内容，反之亦然。随着大规模图像文本预训练的快速发展（Jia等人，2021；Radford等人，2021；Yu等人，2022；Yuan等人，2021），当前的研究重点在于如何将预训练的图像文本模型（如CLIP（Radford等人，2021））迁移到视频文本领域。然而，对视频模型进行全量微调在计算上成本高昂，并且可能存在过拟合的风险。
在这里插入图片描述

图1：时间稀疏性和时间相关性示意图

上方：时间稀疏性的示例。我们可视化了进行或未进行低秩分解的调制权重。
下方：时间相关性的示例。查询补丁用黄色十字标记，并绘制了其他帧内的相似性图。

为缓解这一困境，源自自然语言处理的参数高效微调（PEFT）（Houlsby等人，2019；Lester等人，2021；Zaken等人，2022；Hu等人，2021）在计算机视觉（Chen等人，2022b，a）和跨模态学习（Sung等人，2022）领域也引起了广泛的研究兴趣。最近，一些探索性工作（Zhang等人，2023；Jiang等人，2022；Diao等人，2024）也尝试将PEFT引入TVR。然而，这些方法只是简单地引入现有的PEFT算法（Houlsby等人，2019；You等人，2022；Karimi Mahabadi等人，2021），而没有考虑视频数据的固有特性。

为此，我们认为适用于VTR的理想PEFT方法应具备两个特性：

时间稀疏性：如图1所示，视频数据在时间维度上固有地包含大量冗余或重复信息。可视化的逐帧嵌入CLIP特征过于平滑，导致视频数据中的重要细节或细微差别丢失。相比之下，从预训练CLIP适配得到的视频特征应捕捉最具信息性的帧，从而实现更稀疏的表示。
时间相关性：理想的视频适配器应考虑连续帧之间的依赖关系，特别是在处理跨多帧发生的动作或事件时，因为这些特征可以封装随时间演变的上下文信息。例如在图1中，查询语句包含 “狗” 和 “鸟” 两个实体。给定查询补丁（在第3帧），我们可视化其他补丁内的相似性分布。在此示例中，普通的自注意力机制只能关注到狗的实例，而忽略了另一个鸟的实例。

在视频处理和分析领域，由于相邻帧之间的固有相关性，时间维度往往存在冗余。在处理大规模视频数据时，这种冗余会导致计算资源和存储的低效。因此，需要在减少时间冗余的同时提取有意义和信息丰富的特征。

为缓解上述问题，我们提出了一种基于稀疏相关适配器（简称为RAP）的高效文本-视频检索框架。我们提出的RAP不仅精简了可训练参数，提高了计算资源的利用效率，还对架构进行了优化，以巧妙地捕捉和建模视频数据细微的时间特征。

为实现时间稀疏性，我们提出了低秩调制（LoRM）模块，基于减少冗余和提取关键信息的原则对预训练的CLIP特征（Radford等人，2021）进行优化。这一设计基于一个简单的假设，即时间权重的变化处于低内在秩（Zhang和Tao，2012）。因此，我们引入了逐层低秩缩放参数和偏移参数，这些参数可视为方差和均值，用于调制CLIP特征。具体而言，缩放参数和偏移参数均由两个低秩可训练矩阵相乘得到。这些参数与输入无关，因此更加灵活。LoRM使我们能够校准视频特征，突出显著帧并减轻时间冗余。

对于时间相关性建模，我们用提出的异步自注意力（ASA）机制取代了普通的自注意力机制，该机制引入了视频帧之间的时间动态性以捕捉时间关系。由于预训练CLIP中的注意力计算被限制在每个帧特征内，由于视频帧的时间动态特性，将其应用于视频领域具有挑战性。以往的方法采用时间Transformer（Jiang等人，2022；Yang等人，2022；Zhang等人，2023）或3D卷积网络（Yao等人，2023；Liu等人，2023）来编码时间依赖关系。我们没有引入额外的模块，而是提出了一种异步自注意力机制，仅以参数化的方式对部分补丁令牌进行变形。首先，对于每一帧，我们通过一种无参数的文本条件选择机制筛选出语义重要的补丁。具体而言，我们计算补丁特征与相应句子之间的相似度，并选择响应最高的补丁。其次，当前帧内每个选定的补丁会动态变形，以关注其他帧中与时间相关的补丁。所提出的异步自注意力机制在细粒度的补丁级别上灵活地捕捉视频帧之间的相关性。

总体而言，这项工作的主要贡献如下：

我们提出了RAP，使预训练的CLIP能够高效地应用于TVR，不仅减少了可训练参数，还生成了具有时间稀疏性和相关性的视频特征。
为减轻时间冗余，我们引入了低秩调制模块，以线性方式校准逐帧表示。
我们提出了一种异步自注意力机制，能够在计算开销可忽略的情况下捕捉长距离依赖关系。
大量实验表明，我们的RAP与以前的PEFT方法和全量微调方法相比，性能相当甚至更优。

2 相关工作

2.1 文本-视频检索

TVR（Yu等人，2018；Croitoru等人，2021；Yang等人，2021；Wang等人，2021；Chen等人，2020；Wang和Shi，2023；Jin等人，2022，2023a，b；Liu等人，2022）是视频语言领域的一个基础研究课题，旨在根据给定的文本/视频查询检索相关的视频/文本。早期的工作（Yu等人，2018；Gabeur等人，2020）依赖于从固定的视频和文本编码器中预提取的特征。为便于端到端训练，ClipBERT（Lei等人，2021）提出了一种稀疏采样策略，用于高效的文本-视频训练。随着大规模图像文本预训练模型CLIP（Radford等人，2021）的巨大成功，大多数先进的TVR方法（Luo等人，2022；Ma等人，2022；Wang等人，2023；Hannan等人，2023；Jin等人，2022）专注于通过设计各种跨模态对齐策略，将强大的CLIP编码器迁移到视频文本领域。作为首次尝试，CLIP4Clip（Luo等人，2022）采用均值池化或Transformer来聚合视频特征 ` ·，并进行粗粒度（视频-句子级别）的对比对齐。与使用与文本无关的聚合方式不同，X-CLIP （Ma等人，2022）提出根据文本的注意力权重聚合视频表示，并在帧-词、视频-句子、视频-词和句子-帧级别进行多粒度对比学习。为实现更全面的对齐，UCOFIA（Wang等人，2023）将粗粒度和细粒度对齐统一起来，以捕捉文本和视频之间的高级和低级对应关系。

目前大多数TVR方法都遵循全量微调范式。然而，这种方案计算量巨大，并且可能存在过拟合风险。此外，还需要额外的时间建模模型来弥合图像和视频之间的差距。在本文中，我们提出了RAP，它对TVR进行参数高效微调，提供了一种计算效率更高且可能更稳健的方法。此外，我们RAP中的可训练参数还承担了时间建模的责任，从而无需外部时间模块。

2.2 参数高效迁移学习

PEFT（Houlsby等人，2019；Hu等人，2021；Lester等人，2021；He等人，2021b；Zaken等人，2022；Sung等人，2021）最初在自然语言处理领域被提出，旨在减少可训练参数的数量，同时保持与全量微调设置相当的性能。继承了自然语言处理领域的优点，计算机视觉中的PEFT（Jia等人，2022；Bahng等人，2022；Jie和Deng，2022；Sung等人，2022）也受到了广泛的研究关注。VPT（Jia等人，2022）遵循提示微调策略，在视觉Transformer上引入特定任务的可学习提示。为了更好地与视觉任务兼容，Convpass（Jie和Deng，2022）通过卷积操作重构令牌序列的空间结构，引入了卷积层的归纳偏差。VL - Adapter（Sung等人，2022）开创性地在多任务设置中对不同类型的PEFT技术进行了基准测试，包括Adapter（Houlsby等人，2019）、Hyperformer（Mahabadi等人，2021）和Compacter（Karimi Mahabadi等人，2021）。

也有一些工作（Yang等人，2022；Pan等人，2022；Lin等人，2022；Li和Wang，2023；Yao等人，2023；Jiang等人，2022；Zhang等人，2023；Lu等人，2023）专注于图像到视频的迁移学习。基于预训练的CLIP模型，这些方法要么以顺序（Zhang等人，2023；Jiang等人，2022）或并行（Yao等人，2023）的方式引入时间卷积（Pan等人，2022）或Transformer（Lu等人，2023）。然而，它们忽略了视频数据固有的时间结构，而我们的RAP指出了视频特征建模中的两个关键问题，并生成了更具代表性的视频特征。

3 方法

文本-视频检索旨在通过评估视频-句子对之间的相似度，根据文本/视频查询搜索和检索相关的视频/文本。我们提出的RAP致力于通过引入可忽略的参数开销，弥合固定的CLIP特征与动态视频场景之间的差距。
在这里插入图片描述

图3：RAP概述（a）LoRM设置了可学习的偏移参数c和缩放参数 $S_{V}$ ，以校准普通的CLIP特征。为满足时间稀疏性要求，c和s通过在时间维度上的低秩分解生成。（b）异步自注意力首先通过文本条件选择筛选出补丁集 $S_{t}$ 。然后，根据可学习的补丁偏移γ和时间偏移δ对筛选出的补丁进行变形。

图3展示了我们RAP的示意图。在3.1节中，我们首先介绍RAP的预备知识，包括视频和文本特征嵌入。然后在3.2节和3.3节中分别描述提出的低秩调制和异步自注意力机制。

3.1 特征嵌入

视频嵌入

我们利用CLIP的视觉骨干网络（ViT（Dosovitskiy等人，2020））作为视频编码器。对于视频数据，我们按照ViT（Dosovitskiy等人，2020）的方法独立处理每一帧。具体而言，每个形状为 $H \times W$ 的帧被分割成不重叠的形状为 $P \times P$ 的补丁，然后线性投影到嵌入空间。这种线性投影为每一帧生成 $N = HW/P^{2}$ 个补丁特征。此外，一个可学习的[CLS]标记被添加到每个帧补丁特征序列的开头，以表示全局帧表示。位置嵌入也被添加进来，以显式地融入位置信息。通过上述过程，我们得到第 $t$ 帧的特征 $x_{t}^{0} \in \mathbb{R}^{(N + 1)×D_{v}}$ ，其中 $\in [1, T]$ ， $D_{v}$ 是视觉特征维度， $T$ 是总帧数。

应用具有串行连接的多头自注意力（MHSA）和多层感知器（MLP）的残差结构，以捕捉每个帧补丁序列内的顺序依赖关系和上下文关系。对每一帧重复上述步骤，我们得到第 $l$ 层的视频嵌入 $x^{l} \in \mathbb{R}^{T×(N + 1)×D_{v}}$ ，其中 $\in [1, L]$ ， $L$ 表示层数。具体而言，我们将 $x^{l}$ 分解为 $x^{l} = [f^{l}, p^{l}]$ ，其中 $f^{l} \in \mathbb{R}^{T×D}$ 表示逐帧特征（即[CLS]标记特征），而 $p^{l} \in \mathbb{R}^{T×N×D_{v}}$ 是第 $l$ 层的补丁级表示。

文本嵌入

对于文本嵌入，我们直接使用CLIP的文本编码器来生成文本表示。文本编码器是一个Transformer（Vaswani等人，2017），其架构修改如（Radford等人，2019）所述。一个[EOS]标记也被添加到编码全局句子特征中。具体而言，我们将第 $l$ 层的句子特征表示为 $w^{l} \in \mathbb{R}^{1×D_{t}}$ ，其中 $D_{t}$ 是文本特征维度。

3.2 低秩调制

在本节中，我们详细阐述视频和文本特征的特征调制。由于所有层都共享相同的调制过程，为简洁起见，我们省略层索引 $l$ 的上标。
在这里插入图片描述

视频的低秩调制

逐帧编码的视频特征 $x$ 无法反映视频数据的特征。时间维度上的冗余是视频区别于静态图像的主要特征。为此，我们引入低秩缩放参数和偏移参数，它们作为方差和均值来调制预训练的CLIP特征。这些参数与输入无关，本质上相对轻量级，并且有望具有更好的可扩展性。具体而言，视频缩放参数 $c_{v} \in \mathbb{R}^{T×D_{v}}$ 和视频偏移参数 $s_{v} \in \mathbb{R}^{T×D_{v}}$ 分解如下：
$c_{v}=c^{a} \cdot c^{b}, s_{v}=s^{a} \cdot s^{b}, (1)$
其中 $c^{a}$ ， $s^{a} \in \mathbb{R}^{T×R}$ ， $c^{b}$ ， $s^{b} \in \mathbb{R}^{R×D_{v}}$ 是可学习参数，我们设置秩 $\ll min (T, D_{v})$ 以满足低秩要求。低秩调制应用如下：
$u=c_{v} \odot x+s_{v}, \quad(2)$
其中 $\odot$ 表示广播的逐元素乘法。在训练过程中，普通特征 $x$ 通过固定的CLIP骨干网络提取，可学习的 $c_{v}$ 和 $s_{V}$ 帮助将 $x$ 修改为时间低秩的特征。 $\in \mathbb{R}^{T×(N + 1)×D_{v}}$ 是调制后的视频特征。

3.2.2 文本的调制

我们还使用参数 $c_{t}$ 和 $s_{t}$ 对文本嵌入 $w$ 进行如下调制：
$z=c_{t} \odot w+s_{t}, \quad(3)$
其中 $c_{t}$ ， $s_{t} \in \mathbb{R}^{1×D_{v}}$ 是可学习参数。由于文本数据不具有稀疏性特征，我们不在词级别进行调制，也不使用参数低秩分解。

异步自注意力

让我们回顾一下视频编码器中的普通自注意力机制。为清晰起见，我们以输入视频的第 $t$ 帧为例进行说明。相应的调制特征表示为 $u_{t} \in \mathbb{R}^{N×D_{v}}$ ， $\in [1, T]$ （参见公式（2））。请注意，这里我们将 $u_{t}$ 定义为不包含全局[CLS]标记特征的补丁级特征。我们也省略层索引 $l$ 的上标。

普通自注意力首先对输入特征 $u_t$ 进行三种不同的线性投影，以获得查询、键和值的三元组，即：
$q_t = u_t \cdot W_q, k_t = u_t \cdot W_k, v_t = u_t \cdot W_v \ (4)$
其中 $W_q$ 、 $W_k$ 、 $W_v \in \mathbb{R}^{D_v×D_v}$ 是固定的变换权重。然后计算缩放点积注意力以获取上下文信息。

普通自注意力仅关注帧内相关性建模，这导致了视频和图像之间的模态差距。我们没有引入额外的串行或并行时间建模模块（时间Transformer（Liu等人，2023；Yang等人，2022）或3D卷积（Pan等人，2022）），而是提出了一种新颖的异步自注意力机制，该机制引入了补丁级的时间偏移来对帧间关系进行建模。此外，为了稳定训练过程，我们提出了一种文本条件选择机制。

文本条件选择

这里我们以视频到文本检索为例来说明这一点。对于给定的逐帧视频特征 $\in \mathbb{R}^{T×D_v}$ ，我们在帧维度上进行平均池化，以获得视频级特征 $\bar{f} \in \mathbb{R}^{1×D_v}$ 。然后我们如下选择最相似的句子 $w^* \in W$ ：
$w^* = \underset{w \in \mathcal{W}}{argmax}(Proj(\overline{f}) \cdot w^{\top}) \ (5)$
其中 $\in \mathbb{R}^{1×D_t}$ 是候选句子特征。 $P ro j (\cdot)$ 是一个线性投影层，用于将视觉维度 $D_v$ 转换为文本维度 $D_t$ 。

然后，我们计算句子 - 补丁相似度，并选择响应最高的 $K$ 个补丁。
$\mathcal{S}_t = \underset{t \in [1, T]}{argtopk}(Proj(u_t) \cdot w^{* \top}) \ (6)$
其中 $\mathcal{S}_t$ 是筛选后的补丁索引集。

异步自注意力

然后我们仅对由集合 $\mathcal{S}_t$ 索引的补丁应用所提出的异步自注意力。具体来说，查询特征调整如下：
$\hat{k}_t^n, \hat{v}_t^n = \begin{cases} k_{t+\delta_t}^{n+\gamma_n}, v_{t+\delta_t}^{n+\gamma_n}, & n \in \mathcal{S}_t \\ k_t^n, v_t^n, & n \notin \mathcal{S}_t \end{cases} \ (7)$
其中 $\gamma \in \mathbb{R}^{N×1}$ ， $\delta \in \mathbb{R}^{T×1}$ 是层共享的可学习参数，分别表示补丁和时间维度上的偏移距离。 $k_{t+\delta_t}^{n+\gamma_n}$ 和 $v_{t+\delta_t}^{n+\gamma_n}$ 分别表示第 $\delta_t)$ 帧中第 $\gamma_n)$ 个补丁的键和值特征。 $\hat{k}_t$ ， $\hat{v}_t \in \mathbb{R}^{N×D_v}$ 表示调整后的特征。最后，异步自注意力计算如下：
$Atten(q_t, \hat{k}_t, \hat{v}_t) = softmax(\frac{q_t \hat{k}_t^{\top}}{\sqrt{D_v}}) \hat{v}_t \ (8)$
其中 $q_t$ 如公式（4）所示，而 $\hat{k}_t$ 和 $\hat{v}_t$ 在公式（7）中定义。

4 实验

4.1 实验设置

4.1.1 数据集

我们在四个基准数据集上验证所提出的RAP的性能。

MSR-VTT（Xu等人，2016）包含10,000个YouTube视频，每个视频关联20条文本描述。我们遵循1k-A分割（Yu等人，2018），其中9,000个视频用于训练，1,000个视频用于测试。
MSVD（Chen和Dolan，2011）由1,970个视频组成。按照官方分割，我们分别使用1,200个视频进行训练，670个视频进行测试。
ActivityNet Captions（Krishna等人，2017）涵盖20,000个未修剪的复杂人类活动视频，平均时长为两分钟。我们报告“val1”分割（10,009个训练视频和4,917个测试视频）的结果，如（Gabeur等人，2020）所示。
DiDemo（Anne Hendricks等人，2017）由10,464个未经编辑的个人视频组成，这些视频具有不同的视觉场景，并带有40,543条文本描述。我们遵循（Luo等人，2022）中的训练和评估协议。

4.1.2 评估指标

遵循先前的工作（Luo等人，2022），我们使用标准检索指标评估性能：召回率（R@K，越高越好）、中位数排名（MdR，越低越好）和平均排名（MnR，越低越好）。R@K定义为在检索结果前K名中找到正确结果的样本百分比。在我们的实验中，我们将K设置为{1, 5, 10}。MdR计算真实结果在排名中的中位数，而MnR计算所有正确结果的平均排名。

4.1.3 实现细节

我们将MSR-VTT、DiDeMo、MSVD和ActivityNet Captions的输入帧长度分别设置为12、64、12、64，字幕令牌长度分别设置为32、64、32、64。采用预训练的CLIP（Radford等人，2021）作为视频和文本编码器。使用BertAdam作为优化器，采用0.1比例的热身余弦退火，学习率为 $1 e - 4$ 。除了在DiDeMo上进行10个epoch的微调外，所有模型都训练5个epoch。时间秩R和选择的令牌数K都设置为3。所有实验均在4个NVIDIA Tesla A100 GPU上进行。
在这里插入图片描述

4.2 与最先进方法的比较

比较结果总结在表1和表2中。具体来说，我们设置了三组比较实验：

微调：我们将全量微调的CLIP4clip（Luo等人，2022）作为比较对象。此外，我们还在表1中列出了CLIP4clip的零样本性能，即CLIP，用于比较。
提示微调：我们将提出的RAP与提示微调方法进行比较，包括CoOp（Zhou等人，2022）、VPT（Jia等人，2022）和VoP（Huang等人，2023）。由于VPT是为纯视觉任务量身定制的，我们分别对CLIP的文本分支进行微调或冻结进行实验。
适配器：我们使用最先进的适配器进行实验，包括ST-Adapter（Pan等人，2022）、LoRA（Hu等人，2021）和SSF（Lian等人，2022）。值得注意的是，ST-Adapter应用于视觉分支，文本分支要么微调要么冻结。对于CoOP的实验，我们在文本编码器的输入处插入32个可学习的提示令牌。

比较结果证明了我们提出的RAP的优越性能。例如，在MSR-VTT数据集上，使用CLIP-ViT-B/32骨干网络时，我们的RAP在R@1上比全量微调的CLIP4clip高出2.2%（42.6对比44.8），而参数仅为其0.7%（1.06M对比151.28M）。此外，与当前的提示微调及适配器微调方法相比，我们也取得了更优的性能。尽管我们的RAP的参数略高于LoRA和SSF，但考虑到性能的显著提升，我们的RAP在参数和性能之间达到了更好的平衡。

此外，为了进一步探究所提出模型的内存使用和计算复杂度，我们在表3中总结了训练过程中的GPU内存使用情况和模型的GFLOPs。为了公平比较，我们将每个模型的输入帧数均设置为12帧，并使用ViT-B/32骨干网络进行实验。我们设置了一个轻量级的RAP，仅在最后四层应用LoRM和ASA。如表所示，与全量微调的Clip4clip相比，RAP_light显著减少了可训练参数，略微降低了内存占用，并提升了性能。简而言之，我们的RAP_light在计算开销和性能之间实现了平衡，即付出可承受的开销，同时获得显著的性能提升。

4.3 消融实验

我们在MSR-VTT数据集上使用ViT-B/32骨干网络进行所有消融实验。输入帧数设置为12。

4.3.1 组件消融实验

我们对提出的低秩调制模块和异步自注意力机制进行消融实验。结果总结在表4中。我们可以得出结论，这两个组件对于在可忽略的参数开销下获得优异性能至关重要。例如，LoRM在R@1上带来了2.3%的性能提升，代价是增加了0.42M的参数（模式#1与模式#3相比）。

4.3.2 LoRM低秩分解方式的消融实验

在公式（1）中，我们在时间维度上进行低秩分解，调制权重的维度为 $\mathbb{R}^{T×D_v}$ ，即 $\mathbb{R}^{T×D_v} \leftarrow \mathbb{R}^{T×R} \cdot \mathbb{R}^{R×D_v}$ 。

这里我们对更多分解选项进行消融实验：

时空分解：在时空维度上应用调制，权重为 $\mathbb{R}^{T×N×D_v}$ ，即 $\mathbb{R}^{T×N×D_v} \leftarrow \mathbb{R}^{T×N×R} \cdot \mathbb{R}^{R×D_v}$ ，其中T和N分别表示帧数和每帧内的补丁数。
时空层分解：我们在所有层上统一分解所有调制权重。具体来说，调制权重的形状为 $\mathbb{R}^{M×T×N×D_v}$ ，即 $\mathbb{R}^{M×T×N×D_v} \leftarrow \mathbb{R}^{M×R} \cdot \mathbb{R}^{R×T×N×R} \cdot \mathbb{R}^{R×D_v}$ ，其中M表示所有层插入的模块数。

比较结果总结在表5中。从比较结果可以看出，单独使用时间分解带来了最佳性能。额外在空间和层维度上进行分解会导致性能下降。这些结果表明，视频数据在时间维度上存在大量冗余。

4.3.3 文本条件选择方式的消融实验

为了稳定ASA的训练过程，我们提出了一种文本条件选择策略，将异步注意力计算限制在选定的最相关补丁特征内（参见3.3节）。为清晰起见，我们将这种筛选方式表示为text-top-K。这里我们对更多视觉令牌选择方式进行实验：

random：在每一帧内随机选择K个补丁特征。
text-bottom-K：对于每个补丁令牌特征，我们计算句子 - 补丁相似度，并选择响应最低的K个补丁。
vision-top-K：不使用句子特征，而是计算每个补丁特征与帧的[CLS]标记特征之间的相似度。通过选择响应最高的K个补丁来构成筛选集。
vision-bottom-K：与vision-top-K类似，我们计算补丁与[CLS]标记的相似度，并选择响应最低的K个补丁。
ø：不使用任何选择策略，对所有补丁特征进行变形。

上述选择策略的比较结果总结在表6中。我们有以下发现。首先，不使用令牌选择策略（即表6中的∞）会导致性能大幅下降，例如在R@1上仅达到41.4%。这可能是因为对每个补丁令牌进行变形会破坏预训练的CLIP权重。其次，我们提出的text-top-K策略在所有五个指标上均优于其他策略。这表明以参数化方式选择性地对部分补丁令牌进行变形可以更好地使普通CLIP适应视频场景。

4.3.4 ASA变形方式的消融实验

在3.3节中，我们在时间和空间维度上预测补丁级的变形距离。这里我们对两个维度分别进行消融实验，以观察差异。如表7所示，限制在时间或空间维度上的变形会导致性能下降，这表明自由形式的补丁级变形对最终性能至关重要。

4.3.5 即插即用性能的消融实验

所提出的LoRM和ASA模块均作为即插即用模块，可以与多种基于CLIP的方法兼容。为了证明这一点，我们基于更先进的基于CLIP的方法X-CLIP（Ma等人，2022）进行实验。具体来说，我们冻结CLIP骨干网络，然后在每个Transformer层内插入LoRM，并用我们提出的ASA取代普通自注意力机制。表8中的比较结果表明，即使使用更先进的X-CLIP作为基线，我们的LoRM和ASA也能持续提升检索性能。此外，与全量微调的方法相比，我们提出的LoRM和ASA在可训练参数方面具有很大优势。

4.3.6 超参数的消融实验

我们在表9中对时间秩R和选择的令牌数K进行消融实验。我们设置 $R = 3$ 和 $K = 3$ 以实现最佳检索性能。

5 结论

在这项工作中，我们提出了RAP，以有效地将预训练的CLIP模型迁移到TVR。为了适应固有的视频结构和跨模态设置，我们引入了低秩调制模块以实现逐帧稀疏表示，并引入了异步自注意力模块以增强跨帧相关性。大量实验表明，RAP的性能与先前方法和全量微调方法相当，甚至更优。

影响声明

5.1 伦理声明

我们的RAP旨在通过时间稀疏和相关的适配器进行参数高效的文本-视频检索。伦理问题可能存在于以下两个方面。首先，与许多数据驱动的方法类似，存在数据隐私、匿名化以及遵守相关数据保护法规的问题。其次，应认识到与数据集中潜在偏差以及检索模型相关的考虑因素，特别是在敏感主题方面。我们在研究中对伦理考量保持透明，以维护学术过程的完整性，并确保这项工作符合该领域的伦理标准和规范。

5.2 局限性

尽管取得了显著进展，但我们的RAP仍然面临一些局限性。首先，我们使用文本条件选择来筛选最具代表性的视觉补丁。由于文本和视觉信号之间存在语义差距，不同模态之间复杂概念和上下文的对齐应以更细粒度的方式进行。其次，由于计算资源的限制，我们使用ViT-B/32和ViT-B/16骨干网络进行实验。在ViT-L/14和ViT-E/14骨干网络上进行可扩展实验留待未来工作。

摘要

1 引言

2 相关工作

2.1 文本-视频检索

2.2 参数高效迁移学习

3 方法

3.1 特征嵌入

视频嵌入

文本嵌入

3.2 低秩调制

视频的低秩调制

3.2.2 文本的调制

异步自注意力

文本条件选择

异步自注意力

4 实验

4.1 实验设置

4.1.1 数据集

4.1.2 评估指标

4.1.3 实现细节

4.2 与最先进方法的比较

4.3 消融实验

4.3.1 组件消融实验

4.3.2 LoRM低秩分解方式的消融实验

4.3.3 文本条件选择方式的消融实验

4.3.4 ASA变形方式的消融实验

4.3.5 即插即用性能的消融实验

4.3.6 超参数的消融实验

5 结论

影响声明

5.1 伦理声明

5.2 局限性

相关文章：