当前位置：首页 > news >正文

【论文笔记】CLIP-guided Prototype Modulating for Few-shot Action Recognition

news 来源：原创 2025/9/19 1:07:58

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: CLIP-guided Prototype Modulating for Few-shot Action Recognition
作者: Xiang Wang, Shiwei Zhang, Jun Cen, Changxin Gao, Yingya Zhang, Deli Zhao, Nong Sang
发表: IJCV 2023
arXiv: https://arxiv.org/abs/2303.02982

基本信息

摘要

从大规模对比语言图像预训练如CLIP近期在众多下游任务中展现出显著的成功，但在具有挑战性的小样本动作识别（FSAR）任务上仍处于探索阶段。

在本工作中，我们旨在将CLIP强大的多模态知识迁移，以缓解数据稀缺导致的原型估计不准确问题，这是低样本环境中的关键问题。

为此，我们提出了一种名为CLIP-FSAR的CLIP引导原型调制框架，它包含两个关键组件：一个视频-文本对比目标和一个原型调制。

具体来说，前者通过对比视频及其对应的类别文本描述，弥合了CLIP与小样本视频任务之间的任务差异。

后者利用CLIP的可迁移文本概念，通过时间Transformer自适应地细化视觉原型。

通过这种方式，CLIP-FSAR能够充分利用CLIP中的丰富语义先验，获得可靠的原型并实现准确的小样本分类。

在五个常用基准上的大量实验证明了我们提出方法的有效性，CLIP-FSAR在各种设置下均显著优于现有最先进的方法。

源代码和模型将在https://github.com/alibaba-mmai-research/CLIP-FSAR上公开。

Performance comparison based on a typical few-shot action recognition method

CLIP-FSAR

Overview

少样本动作识别旨在利用少量视频识别新的动作类别。

在一个典型的少样本设置中，存在两个类别不重叠的数据集，一个基础数据集 $\mathcal{D}_{train}$ 用于训练，一个新数据集 $\mathcal{D}_{test}$ 用于测试。

为了模拟测试环境，通常在训练过程中从 $\mathcal{D}_{train}$ 中采样大量少样本任务（或称为episode）来优化模型。

对于一个标准的 $N$ -way $K$ -shot 任务，存在一个支持集 $\{s_1, s_2, ..., s_{N \times K}\}$ ，包含 $N$ 个类别和每个类别 $K$ 个视频。

任务的目标是基于支持样本对查询视频 $q$ 进行分类。

为了方便表述，我们考虑 $N$ -way 1-shot（即， $K = 1$ ）任务来展示我们的框架。

遵循先前的工作，在输入视频上实施了一种稀疏帧采样策略以减少计算负担。

首先，我们采用CLIP的视觉编码器 $\mathcal{V}$ 来生成输入视频帧的特征，以及文本编码器 $\mathcal{T}$ 来提取相应类别自然语言描述的文本嵌入。

然后，我们对这些获得的帧特征和文本特征应用视频-文本对比目标，以适应CLIP到少样本视频任务。

此外，我们提出了一种原型调制，以细化少样本度量目标的视觉原型。图2展示了我们CLIP-FSAR的整个框架。

The architecture of CLIP-FSAR

Video-text contrastive objective

给定一个支持集 $S = \{s_1, s_2, ..., s_N\}$ 和一个查询视频 $q = \{q^1, q^2, ..., q^t\}$ ，其中 $s_i = \{s_i^1, s_i^2, ..., s_i^t\}$ 是一个由稀疏采样的 $t$ 帧组成的支持视频。

视觉编码器 $\mathcal{V}$ 用于编码视频特征：

$f_{s_i} = \mathcal{V}(s_i), \quad f_q = \mathcal{V}(q)$

其中 $f_{s_i} \in \mathbb{R}^{t \times C}$ ， $f_q \in \mathbb{R}^{t \times C}$ ， $C$ 是通道的数量。

然后我们使用文本编码器 $\mathcal{T}$ 通过提示模板 a photo of [CLS] 提取基类的文本特征，并将获得的文本特征表示为 ${w_i\}_{i=1}^B$ ，其中 $B$ 是基类数据集 $\mathcal{D}_{train}$ 的总类数， $w_i \in \mathbb{R}^C$ 是一个特征向量。

遵循先前的做法，为了在文本编码器中保留原始预训练的可转移知识并减少优化负担，我们在训练过程中固定 $\mathcal{T}$ 不进行更新。

为了弥合CLIP和少样本视频任务之间的任务差异，我们模拟原始CLIP训练目标，以最大化视频特征和文本特征之间的相似性，如果它们是匹配对，则最小化其他情况。

为了实现这一目标，我们首先计算视频-文本匹配概率如下：

$p_{(y=i|v)}^{video-text} = \frac{\exp(\text{sim}(\text{GAP}(f_v), w_i) / \tau)}{\sum_{j=1}^B \exp(\text{sim}(\text{GAP}(f_v), w_j) / \tau)}$

其中 $\in \{s_1, s_2, ..., s_N, q\}$ ， $\text{sim}$ 是余弦相似度函数， $\text{GAP}$ 是全局平均池化的缩写， $\tau$ 表示可学习的温度因子。

然后，我们在预测值和实际类别标签之间施加交叉熵损失 $\mathcal{L}_{video-text}$ 来优化目标。

Prototype modulation

现有的少样本动作识别方法，如OTAM，通常通过比较查询视频 $q$ 与支持视觉原型的时间对齐距离来分类查询视频 $q$ 。

在少样本动作识别任务中，视频原型是一系列帧原型，请参阅OTAM以获取更多详细信息。

查询视频 $q$ 与支持视频 $s_i$ 之间的距离可以表示为：

$d_{q, s_i} = \mathcal{M}(f_q, f_{s_i})$

其中 $\mathcal{M}$ 表示时间对齐度量。

在OTAM中， $\mathcal{M}$ 是动态时间规整的一种变体，用于测量支持-查询距离作为帧对齐成本。

少样本性能在很大程度上依赖于原型估计的准确性。

一方面，在低样本场景中，由于数据稀缺，视觉信息往往不足，导致不准确的原型。

另一方面，视觉和文本模态之间存在互补性，CLIP的文本描述表示涉及丰富的语义先验。

基于这些，为了提高支持原型的可靠性，我们建议利用信息丰富的支持文本特征来细化原型。

具体来说，在支持视觉特征 $f_{s_i}$ 的基础上，我们将文本特征沿着时间维度堆叠到对应的视频 $s_i$ ，即 $\mathbb{R}^{t \times C} \cup \mathbb{R}^C \rightarrow \mathbb{R}^{(t+1) \times C}$ ，并使用 Temporal Transformer 来自适应地融合特征。

我们将增强后的视觉特征表示为 $\tilde{f}_{s_i}$ （不包括输出的文本特征）。

由于在测试过程中我们不知道查询视频的真实类别信息，我们只将视觉查询特征输入到时间Transformer中，以便输出的查询特征 $\tilde{f}_q$ 和支持特征可以在一个共同的特征空间中匹配。

随后，我们采用时间对齐度量来计算查询-支持距离：

$d'_{q, s_i} = \mathcal{M}(\tilde{f}_q, \tilde{f}_{s_i})$

其中 $\mathcal{M}$ 是我们在CLIP-FSAR中默认采用的OTAM度量。

请注意，提出的CLIP-FSAR是一个即插即用的框架，在后续的实验部分，我们将CLIP-FSAR插入到其他现有的度量或方法中，并经验性地证明其可插拔性。

基于这些距离，查询视频 $q$ 对支持类别的概率分布可以表示为：

$p_{(y=i|q)}^{few-shot} = \frac{\exp(d'_{q, s_i})}{\sum_{j=1}^N \exp(d'_{q, s_j})}$

遵循先前的工作，我们可以使用交叉熵损失 $\mathcal{L}_{few-shot}$ 来优化模型参数。

我们CLIP-FSAR的最终训练目标是：

$\mathcal{L} = \mathcal{L}_{video-text} + \alpha \mathcal{L}_{few-shot}$

其中 $\alpha$ 是一个平衡因子。

对于少样本评估，我们可以通过 $p_{(y=i|q)}^{few-shot}$ 获得属于支持类别的匹配概率，类似于先前的工作。

此外，由于我们提出的框架的双目标设计，我们还可以结合视频-文本匹配结果 $p_{(y=i|v)}^{video-text}$ 和少样本分类结果 $p_{(y=i|q)}^{few-shot}$ 来获得合并预测：

$p_{(y=i|q)}^\dagger = (p_{(y=i|q)}^{video-text})^\beta \cdot (p_{(y=i|q)}^{few-shot})^{1-\beta}$

其中 $\beta \in [0, 1]$ 是一个可调整的超参数，我们将上述集成方式表示为 CLIP-FSAR $^\dagger$ 。

请注意，上述描述的零样本和少样本结果的组合只是一种可选方法，本文主要关注少样本性能。

实验

主实验

Comparison to recent few-shot action recognition approaches on SSv2-Full and Kinetics. The experiments are conducted under the 5-way K-shot setting with K changing from 1 to 5

Comparison to recent few-shot action recognition methods on the UCF101, SSv2-Small and HMDB51 datasets. The experiments are conducted under the 5-way K-shot setting with K changing from 1 to 5

Generalization experiment

消融实验

Ablation study of each component in our CLIPFSAR

Comparison results of different number of temporal Transformer layers on the SSv2-Small and Kinetics datasets

Comparison of different prototype modulation schemes

Comparison of shared weights and non-shared weights

Sensitivity analysis of α on SSv2-Small and Kinetics

Performance comparison with different numbers of input video frames under the 5-way 1-shot setting on SSv2Small

N-way 1-shot results of our CLIP=FSAction and other baseline methods with N varying from 5 to 10

Empirical analysis of replacing the visual encoder of our CLIP-FSAR with several ImageNet pre-trained backbones

Generalizability experiments of migrating our CLIP-FSAR framework to a self-supervised DINO visual encoder

5-way zero-shot performance comparison with CLIP

可视化

T-SNE distribution visualization of five action classes on the test set of SSv2-Small

T-SNE distribution visualization of five action classes on the test set of Kinetics

T-SNE distribution visualization of five action classes on the test set of UCF101

T-SNE distribution visualization of five action classes on the test set of SSv2-Full

T-SNE distribution visualization of five action classes on the test set of HMDB51

局限

在我们的CLIP-FSAR中，我们使用广泛使用的提示模板，即 a photo of [CLS] 作为默认设置。

Comparison experiments of different prompt templates

在表11中，我们探讨了不同文本提示的影响，并发现不同的提示模板在不同的数据集上表现不一致，例如，[CLS] 在SSv2-Small数据集上表现最好，而在Kinetics数据集上表现最差。

研究通用且有效的文本提示形式将是一项有价值的工作。

此外，我们主要关注视觉方面来调制原型，并没有考虑文本方面的某些潜在改进，例如使用视觉特征来细化文本特征。

我们把上述讨论留给未来的工作。

总结

本文提出了一种基于CLIP的FSAR方法来解决CLIP模型在少样本动作识别问题上的挑战，充分利用了CLIP的多模态知识。

利用视频-文本对比目标来适配CLIP模型以适应少样本视频任务。

此外，我们提出使用文本特征通过实现时间Transformer来自适应地调节视觉支持原型。

在五个常用基准上的大量实验表明，我们的CLIP-FSAR在性能上显著优于现有最先进的方法。

【论文笔记】CLIP-guided Prototype Modulating for Few-shot Action Recognition

🍎个人主页：小嗷犬的个人主页 🍊个人网站：小嗷犬的技术小站 🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。基本信息标题: CLIP-guided Prototype Mo…...

编程日记 2025/9/19 1:07:59

PHP：从入门到进阶的全方位探索

PHP（Hypertext Preprocessor）作为一种开源的服务器端脚本语言，自1995年问世以来，凭借其简单易学、高效灵活的特点，迅速成为了Web开发领域的中流砥柱。无论是构建动态网页、开发Web应用程序，还是处理复杂的服…...

编程日记 2025/9/17 17:56:25

vue复习

1.试述前端开发技术发展变化历程，理解推动技术发展动力以及对软件开发职业的启发。 2.当前前端开发技术主要特征有哪些？ 前后端分离开发： 前端专注页面展示效果与用户使用体验,后端专注为前端提供数据和服务。工程化特征：模块…...

编程日记 2025/9/19 1:07:10

伊克罗德与九科信息共同发布RPA+AI智能机器人解决方案

12月12日，伊克罗德信息在上海举办“创见AI，迈进智能化未来——科技赋能零售电商”活动，与九科信息、亚马逊云科技共同探讨与分享，融合生成式AI技术和智能自动化（RPA,Robotic Process Automation）在电商零售…...

编程日记 2025/9/17 5:43:53

nano编辑器的使用

nano 是一个非常简单易用的命令行文本编辑器，它常用于在 Linux 或类 Unix 系统中快速编辑文件，特别适用于需要修改配置文件或快速编辑文本的场景。以下是一些常见的 nano 使用技巧和基本操作。 1. 打开文件要使用 nano 编辑文件，打开终端并…...

编程日记 2025/9/19 1:07:11

灵当crm pdf.php存在任意文件读取漏洞

免责声明: 本文旨在提供有关特定漏洞的深入信息，帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步，未经授权访问系统、网络或应用程序，可能会导致法律责任或严重后果。因此，作者不对读者基于本文内容所采取的任何行为承担责任。读者在…...

编程日记 2025/9/14 22:46:58

Liinux下VMware Workstation Pro的安装，建议安装最新版本17.61

建议安装最新版本17.61，否则可能有兼容性问题下载VMware Workstation安装软件从官网网站下载 https://support.broadcom.com/group/ecx/productdownloads?subfamilyVMwareWorkstationPro 选择所需版本现在最新版本是17.61，否则可能有兼容性问题…...

编程日记 2025/9/10 13:50:27

性能测试度量指标学习笔记

目录一、概要二、不同系统软件性能测试度量指标三、性能测试度量指标 1、响应时间 2、用户数 3、系统处理能力 4、错误率 5、成功率 6、资源占用率 7、CPU利用率 8、内存页交换速率 9、内存占用率 10、磁盘IO 11、磁盘吞吐量 12、网络吞吐量 13、系统稳定性…...

编程日记 2025/9/14 9:48:30

一款可以替代Navicat的数据库管理工具

Navicat是一款非常受欢迎的数据库管理工具，基本支持市面上的所有数据库、而且支持跨平台。可以说Navicat是一款功能强大、非常全面的数据库管理工具，提供了多种版本和定价方案，以满足不同用户的需求和预算。也是很多企业的首选工具&#…...

编程日记 2025/9/17 2:10:52

使用C#在目录层次结构中搜索文件以查找目标字符串

例程以递归方式搜索目录层次结构中的文件以查找目标字符串。它可以搜索几乎任何类型的文件，即使它不包含 Windows 理解的文本。例如，它可以搜索 DLL 和可执行文件以查看它们是否恰好包含字符串。下面的代码中显示的ListFiles 方法完成了大部分工作。 …...

编程日记 2025/9/14 7:00:42

C++设计模式

C设计模式什么是 C 设计模式？设计模式的用途设计模式的核心原则设计模式的分类 1. 创建型设计模式1.1 单例模式（Singleton Pattern）1.2 工厂方法模式（Factory Method Pattern）1.3 抽象工厂模式（Abstract F…...

编程日记 2025/9/15 4:03:07

LM芯片学习

1、LM7805稳压器 https://zhuanlan.zhihu.com/p/626577102?utm_campaignshareopn&utm_mediumsocial&utm_psn1852815231102873600&utm_sourcewechat_sessionhttps://zhuanlan.zhihu.com/p/626577102?utm_campaignshareopn&utm_mediumsocial&utm_psn18528…...

编程日记 2025/9/16 11:46:50

使用 MyBatis-Plus Wrapper 构建自定义 SQL 查询

前言 MyBatis-Plus (MP) 是一款基于 MyBatis 的增强工具，它简化了数据库操作，提供了诸如自动分页、条件构造器等功能，极大地提高了开发效率。其中，Wrapper 条件构造器是 MP 的核心功能之一，它允许开发者以链式调用的方…...

编程日记 2025/9/18 6:33:11

C# OpenCvSharp DNN 实现百度网盘AI大赛-表格检测第2名方案第一部分-表格边界框检测

目录说明效果模型项目代码 frmMain.cs YoloDet.cs 参考下载其他说明百度网盘AI大赛-表格检测的第2名方案。该算法包含表格边界框检测、表格分割和表格方向识别三个部分，首先，ppyoloe-plus-x 对边界框进行预测，并对置信…...

编程日记 2025/9/17 17:34:48

手分割数据集labelme格式505张1类别

数据集格式：labelme格式(不包含mask文件，仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数)：505 标注数量(json文件个数)：505 标注类别数：1 标注类别名称:["hands"] 每个类别标注的框数&#xf…...

编程日记 2025/9/16 9:10:39

2012年西部数学奥林匹克试题(几何)

2012/G1 △ A B C \triangle ABC △ABC 内有一点 P P P, P P P 在 A B AB AB, A C AC AC 上的投影分别为 E E E, F F F, 射线 B P BP BP, C P CP CP 分别交 △ A B C \triangle ABC △ABC 的外接圆于点 M M M, N N N. r r r 为 △ A B C \triangle ABC △ABC 的内…...

编程日记 2025/9/18 23:41:08

GB28181系列三：GB28181流媒体服务器ZLMediaKit

我的音视频/流媒体开源项目(github) GB28181系列目录目录一、ZLMediaKit介绍二、 ZLMediaKit安装、运行(Ubuntu) 1、安装 2、运行 3、配置三、ZLMediaKit使用一、ZLMediaKit介绍 ZLMediaKit是一个基于C11的高性能运营级流媒体服务框架，项目地址&#xf…...

编程日记 2025/9/14 21:01:30

【微服务】SpringBoot 整合Redis Stack 构建本地向量数据库相似性查询

目录一、前言二、向量数据库介绍 2.1 什么是向量数据库 2.2 向量数据库特点 2.3 向量数据库使用场景三、常用的向量数据库解决方案 3.1 Milvus 3.1.1 Milvus是什么 3.1.2 Milvus主要特点 3.2 Faiss 3.2.1 Faiss是什么 3.2.2 Faiss主要特点 3.3 Pinecone 3.3.1 …...

编程日记 2025/9/11 12:41:58

神州数码DCME-320 online_list.php存在任意文件读取漏洞

编程日记 2025/9/15 8:37:00

Shadcn UI 实战：打造可维护的企业级组件库

"我们真的需要自己写一套组件库吗？"上周的技术评审会上,我正在和团队讨论组件库的选型。作为一个快速发展的创业公司,我们既需要高质量的组件,又想保持灵活的定制能力。在对比了多个方案后,我们选择了 shadcn/ui 这个相对较新的解决方案。说实话,最开始…...

编程日记 2025/9/11 15:24:16

C#速成（GID+图形编程）

常用类类说明Brush填充图形形状,画刷GraphicsGDI绘图画面，无法继承Pen定义绘制的对象直线等（颜色，粗细）Font定义文本格式（字体，字号） 常用结构结构说明Color颜色Point在平面中定义点Rectan…...

编程日记 2025/9/16 2:22:35

CMD使用SSH登陆Ubuntu

1.确认sshserver是否安装好 ps -e | grep sshd 450 ? 00:00:00 sshd 2、如果看到sshd那说明ssh-server已经启动了其实在/etc/ssh下有一个sshd_config 文件。对这个文件进行修改vim sshd_config。往文件中添加如下内容： Port 22 Protocol 2 PermitRootLogin yes P…...

编程日记 2025/9/12 6:15:13

Fay环境安装及使用

一、项目源码代码地址 ： Fay 2D数字人源码地址：xuniren LLM用是清华开源的ChatGLM源码地址：ChatGLM-6B 模型地址chatglm2-6b-int4 （大模型的安装直接参考了我的另一篇文章：ChatGLM2-6B-int4的…...

编程日记 2025/9/12 19:29:36

重写 `equals` 和 `hashCode` 的一致性

重写 equals 和 hashCode 的一致性在 Java 中，当我们重写 equals 方法时，通常需要同时重写 hashCode 方法，以确保对象在逻辑上相等时，其哈希值也相等。这是一种重要的契约（contract），主要用于…...

编程日记 2025/9/11 13:55:43

【游戏设计原理】14 - MDA：游戏的机制、运行和体验

1. 学习、分析并总结 MDA 原理 MDA (Mechanics, Dynamics, and Aesthetics) 是一种用来分析和理解游戏设计的框架，由 Marc LeBlanc, Robin Hunicke, 和 Robert Zubek 提出。这个框架将游戏分解为三个核心要素： Mechanics（机制）&…...

编程日记 2025/9/15 13:11:50

鸿蒙Next创建自定义组件总结

一、引言在鸿蒙Next开发中，自定义组件是构建高效、可维护UI的重要组成部分。它具有可组合、可重用以及数据驱动UI更新等特点，能帮助开发者更好地实现代码复用、业务逻辑与UI分离等目标。本文将详细总结创建自定义组件的相关知识，包括其基本…...

编程日记 2025/9/13 22:08:17

redis 缓存使用

工具类 package org.springblade.questionnaire.redis;import com.fasterxml.jackson.core.JsonProcessingException; import com.fasterxml.jackson.core.type.TypeReference; import com.fasterxml.jackson.databind.ObjectMapper; import org.springframework.beans.factor…...

编程日记 2025/9/13 21:06:45

基本信息

摘要

CLIP-FSAR

Overview

Video-text contrastive objective

Prototype modulation

实验

主实验

消融实验

可视化

局限

总结

相关文章：