当前位置: 首页 > news >正文

HyperAD:学习弱监督音视频暴力检测在双曲空间中的方法

文章目录

  • 速览
  • 摘要
  • 1. 引言
  • 2. 相关工作
    • 弱监督暴力检测
    • 双曲空间中的神经网络
  • 3. 预备知识
    • 双曲几何
    • 切空间(Tangent Space)
    • 指数映射与对数映射(Exponential and Logarithmic Maps)
    • 3.1 双曲图卷积网络(Hyperbolic Graph Convolutional Networks)
  • 4. 方法(Method)
    • 4.1 公式化表达与问题定义(Formulation and Problem Statement)
    • 4.2 多模态融合(Multimodal Fusion)
      • 拼接融合(Concat Fusion)
      • 加性融合(Additive Fusion)
      • 门控融合(Gated Fusion)
      • 双线性 & 拼接(Bilinear & Concat)
      • 我们的绕行融合(Our Detour Fusion)
    • 4.3 HFSG 分支(HFSG Branch)
    • 4.4 HTRG 分支(HTRG Branch)
    • 4.5 双曲分类器(Hyperbolic Classifier)
    • 4.6 目标函数(Objective Function)
  • 5. 实验(Experiments)
    • 5.1 实现细节(Implementation Details)
    • 5.2 数据集(Dataset)
    • 5.3 定量结果(Quantitative Results)
    • 5.4 定性结果(Qualitative Results)
    • 5.5 消融实验(Ablation Studies)
  • 6. 额外结果与分析(Additional Results and Analysis)
    • 6.1 复杂度分析(Complexity Analysis)
    • 6.2 训练稳定性(Training Stability)
    • 6.3 不同超参数下的消融结果(Ablative Results with Different Hyper-parameters)
    • 6.4 CO-SNE 和 T-SNE 可视化(CO-SNE and T-SNE Visualization)
  • 7. 结论

Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space
arxiv’23’05, Im. Vis. Comput’24
数字媒体与艺术学院,杭州电子科技大学,中国;国防科技大学工程与技术学院,中国

速览

动机

由于特征空间的限制,传统的欧几里得神经网络在捕捉高区分度的表示时遇到了困难。

以前的多模态方法可能会受到音频信号中噪声的影响,导致模态不平衡。

方法

提出HyperAD学习在双曲空间中的片段嵌入以提高模型的区分性,并设计了新的绕行融合以提高视觉模型的重要性。

  1. 绕行融合:只给视觉特征做FC,音频特征不做任何操作,然后进行concat。
  2. 双曲特征相似性图分支:首先通过指数映射将融合特征投影到双曲空间,然后通过双曲特征相似性定义邻接矩阵,这>里还有个阈值以消除较弱的关系,然后利用双曲线性层HL进行特征变换+聚合。
  3. 双曲时间关系图分支:这里与上个分支的操作几乎一样,仅在邻接矩阵那里修改了一下,这里的邻接矩阵直接基于视>频的时间结构构建了时间关系图。
  4. 双曲分类器:因为分支的输出特征还在双曲流形上,不能直接用基于欧几里得的分类器进行分类,所以有了双曲分类>器进行分类。
  5. 目标函数:还是弱监督的MIL方法。

实验

实验只跑了XD-Violence数据集,做了很多消融实验,还有 t-SNE 可视化。

摘要

近年来,弱监督音视频暴力检测任务受到了广泛关注。该任务的目标是根据视频级标签,在多模态数据中识别暴力片段。尽管该领域取得了进展,但传统的欧几里得神经网络在捕捉高区分度的表示时遇到了困难,主要是由于特征空间的限制。为了解决这个问题,我们提出了HyperVD,一个新的框架,学习在双曲空间中的片段嵌入以提高模型的区分性。我们贡献了两个完全双曲图卷积网络分支,挖掘片段之间的特征相似性和时间关系。通过在此空间中学习片段表示,框架有效地学习了暴力片段和正常片段之间的语义差异。我们在XD-Violence基准上的广泛实验表明,我们的方法达到了85.67%的AP,显著超越了现有的最先进方法。

关键词: 弱监督学习,双曲空间,视频暴力检测

1. 引言

随着数字内容的增加和社交媒体平台的普及,自动化暴力检测在安全和监控系统、犯罪预防和内容审核等各种应用中变得越来越重要。然而,给视频中的每一帧做标注是一个耗时且昂贵的过程。为了解决这个问题,当前的方法通常利用弱监督设置将问题表述为多实例学习(MIL)任务[36, 44, 53, 47, 34, 17, 43, 4]。这些方法将视频视为一包实例(即片段或段落),并基于视频级标注预测它们的标签[35]。

遵循MIL范式,提出了许多弱监督暴力检测方法。例如,Zhu等人[55]提出了一个时序增强网络,通过注意力块学习运动感知特征,而Tian等人[36]提出了鲁棒时序特征幅度(RTFM)方法,通过时序注意力和幅度学习增强模型的鲁棒性。Li等人[21]提出了一种基于变换器的框架,并利用多序列学习来减少选择错误的概率。此外,还提出了几种多模态方法,这些方法联合学习音频和视觉表示,通过利用来自不同模态的互补信息来提高性能[44, 47, 27, 30]。例如,Wu等人[44]提出了一种基于GCN的方法,通过图学习来学习多模态表示,而Yu等人[47]提出了一种方法,通过模态感知的多实例学习来解决模态异步问题。

尽管上述方法取得了良好的结果,但这些多模态方法可能会受到音频信号中噪声的影响,导致模态不平衡。在这种情况下,听觉模态对暴力检测的贡献低于视觉模态。此外,先前的方法已经证明了使用图表示学习来检测暴力事件的有效性,通过将每个实例作为图中的节点[44, 53],但它们仍然难以区分暴力实例和非暴力实例

我们提出了一种新的方法,通过图表示学习来解决这些限制。根据我们的了解,所有先前的方法都在欧几里得空间中使用深度神经网络进行特征表示。然而,图状数据被证明呈现出高度非欧几里得的潜在结构[2, 46],这对当前的欧几里得深度神经网络构成挑战。如图1所示,正常和暴力实例之间存在隐式的层次关系和显著的语义差异,这在欧几里得空间中很难区分。我们认为,直接在与数据相关的空间中学习实例表示,例如双曲流形,可以有利于模型的区分性,因为它使模型能够捕捉并区分在欧几里得空间中可能难以探索的细微语义差异

在这里插入图片描述
图 1:直观上,暴力实例和正常实例之间存在隐含的层次关系和显著的语义差异。这些差异使用传统的欧几里得空间方法可能难以捕捉,因为这些方法可能不适合表示复杂的层次结构。

受到这些发现的启发,我们提出了一种基于洛伦兹模型[26]的HyperVD框架,用于弱监督音视频暴力检测。基于双曲几何构建该框架可以受益于双曲距离,该距离会成倍增加无关样本之间的距离,相比于相似样本之间的距离。特别地,我们的方法包括一个绕行融合模块,在融合阶段解决模态不平衡问题,然后将音视频特征的融合嵌入投影到双曲流形上。接下来,我们利用两个完全双曲图卷积网络分支来提取双曲空间中实例之间的特征相似性和时间关系。此外,我们将两个分支学习到的嵌入进行拼接,并将其输入到一个双曲分类器中进行暴力预测。为了评估我们提出的方法的有效性,我们在XD-Violence数据集上进行了实验。在弱监督下,我们的方法可以实现85.67%的AP,超过了之前最先进方法2.27%。广泛的消融实验也证明了双曲空间中实例表示学习的有效性。

总之,主要贡献如下:

  • 我们分析了使用传统欧几里得方法学习实例表示的局限性,并提出了一种新颖的HyperVD框架,通过双曲几何有效地探索实例的语义差异,从而实现弱监督暴力检测,带来更强的区分能力。
  • 实验结果表明,我们的框架在XD-Violence数据集上超越了最先进的方法。消融研究进一步揭示了每个提出的组件如何有助于模型的成功。

2. 相关工作

弱监督暴力检测

弱监督暴力检测旨在通过利用视频级标签识别视频中的暴力片段。自从第一篇使用深度学习方法的论文[7]发布以来,暴力检测领域取得了巨大的进展。为了消除无关信息并提高检测的准确性,MIL [24]框架在此过程中被广泛使用。大多数现有工作[31, 1, 6, 8, 28, 32, 43, 50, 51, 45]将暴力检测仅视为一个视觉任务,并且使用基于CNN的网络来编码视觉特征。Sultani等人[35]提出了一种带有稀疏性和平滑性约束的MIL排名损失,用于深度学习网络学习视频片段中的异常得分。Li等人[21]开发了一种基于Transformer[38]的多序列学习模型,以减少选择错误的概率。最近的一项研究[44]发布了一个大规模音视频暴力数据集。为了促进模态间的交互,Yu等人[47]提出了一种轻量级双流网络,并利用模态感知对比和自蒸馏来实现判别性多模态学习。为了关注正常数据的含义,Zhou等人[54]提出了一个具有不确定性调节的双记忆单元模块,用于学习正常数据的表示以及异常数据的判别特征。与先前的方法不同,我们将音视频特征的融合嵌入投影到双曲流形上,并使用完全双曲图卷积网络有效地挖掘暴力和非暴力实例之间的语义差异

双曲空间中的神经网络

双曲空间是一种具有恒定负高斯曲率的非欧几里得空间。近年来,由于其在表示具有隐藏层次的数据方面的吸引力,双曲空间在机器学习和神经信息科学中引起了越来越多的关注[25, 33, 26, 40]。Nickel等人[25]开展了使用庞加莱球模型在双曲空间中学习表示的开创性研究。Sala等人[33]分析了这些不同模型中的嵌入大小和数值精度的权衡,Ganea等人[10]将这些方法扩展到无向图上。在此基础上,Ganea等人[11]定义了一个双曲神经网络,弥合了双曲空间与深度学习之间的鸿沟。Nickel等人[26]和Wilson等人[41]证明,使用双曲空间的洛伦兹模型相比于庞加莱球,能得到更高效且更简化的优化器。在近期的研究中[13],基于各向同性空间的笛卡尔积,已开发出双曲神经网络。事实上,双曲空间已被很好地融入到近期先进的深度学习模型中,如递归神经网络[11]、图神经网络[22]和注意力网络[15]。基于这些深度学习范式的研究,我们探索了使用双曲神经网络在双曲空间中学习弱监督音视频暴力检测的有效性。

250318:高斯曲率是描述一个表面弯曲程度的数学量。如果一个空间的曲率是负的,意味着它是“向外弯曲”的。例如,地球表面是一个正曲率的例子(球面),而双曲空间就像一个不断向外扩展的“饿了的椭圆”或“弯曲的鞍形”。简单来说,双曲空间是一种“弯曲”得非常特殊的空间,其中每个点的曲率都是负的,并且这种弯曲在整个空间中是均匀的(恒定的)。这种空间结构特别适合用于表示具有层级关系或复杂结构的数据。

3. 预备知识

在描述我们方法的细节之前,本节将介绍双曲几何的背景知识及其建模方法,即洛伦兹模型,以及我们在本研究中采用的双曲图卷积网络

双曲几何

双曲几何是一种具有恒定负曲率 K K K的非欧几里得几何。双曲几何模型已在之前的研究中得到应用,包括庞加莱球(庞加莱圆盘)模型[9]、庞加莱半平面模型[37]、克莱因模型[14]以及洛伦兹(双曲)模型[26]。我们选择洛伦兹模型作为框架基础,考虑到其指数和对数映射及距离函数的数值稳定性和计算简便性

我们将 L K n = ( L n , g x K ) \mathbb{L}_K^n = (\mathcal{L}^n, g_{\mathbf{x}}^K) LKn=(Ln,gxK) 表示为一个具有恒定负曲率 K K K n n n 维洛伦兹模型,其中 L n \mathcal{L}^n Ln 是满足以下条件的点集:

L n : = { x ∈ R n + 1 ∣ ⟨ x , x ⟩ L = 1 K , x i > 0 } . (1) \mathcal{L}^n := \left\{ {x} \in \mathbb{R}^{n+1} \mid \langle {x}, {x} \rangle_{\mathcal{L}} = \frac{1}{K}, x_i > 0 \right\}. \tag{1} Ln:={xRn+1x,xL=K1,xi>0}.(1)

洛伦兹标量积定义为:

⟨ x , y ⟩ L : = − x 0 y 0 + ∑ i = 1 n x i y i , (2) \langle {x}, {y} \rangle_{\mathcal{L}} := -x_0 y_0 + \sum_{i=1}^{n} x_i y_i, \tag{2} x,yL:=x0y0+i=1nxiyi,(2)

250318:右下角标 L \mathcal{L} L 表示这是洛伦兹标量积而不是普通的标量积。标量积(也称为内积或点积)是向量运算中的一种基本操作,用于量化两个向量之间的相似性。

250318: g x K g_{\mathbf{x}}^K gxK 表示度量张量,是用来定义双曲空间中点之间距离的工具。度量张量和洛伦兹标量积的关系为 ⟨ x , y ⟩ L = g x K ( x , y ) \langle x, y \rangle_\mathbb{L} = g^K_{\mathbf{x}}(x, y) x,yL=gxK(x,y),但是要注意,度量张量就是用于计算标量积的工具,但它并不是实际的内积公式,它只是表示内积的结构或规则。在洛伦兹空间中,内积的具体形式就是公式2。

其中 L n \mathcal{L}^n Ln 是位于 ( n + 1 ) (n+1) (n+1) 维闵可夫斯基空间中的双曲面上,其原点为 ( − 1 / K , 0 , … , 0 ) \left( \sqrt{-1/K}, 0, \dots, 0 \right) (1/K ,0,,0)。为简便起见,我们将洛伦兹模型中的点 x {x} x 记作 x ∈ L K n {x} \in \mathbb{L}_K^n xLKn

切空间(Tangent Space)

切空间 T x L K n \mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n TxLKn x {x} x 处被定义为一个 n n n 维向量空间,用于在 x {x} x 附近近似 L K n \mathbb{L}_K^n LKn

T x L K n : = { y ∈ R n + 1 ∣ ⟨ y , x ⟩ L = 0 } . (3) \mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n := \left\{ \mathbf{y} \in \mathbb{R}^{n+1} \mid \langle \mathbf{y}, \mathbf{x} \rangle_{\mathcal{L}} = 0 \right\}. \tag{3} TxLKn:={yRn+1y,xL=0}.(3)

请注意, T x L K n \mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n TxLKn R n + 1 \mathbb{R}^{n+1} Rn+1 的欧几里得子空间。

250318: T x \mathcal{T}_{\mathbf{x}} Tx 是指与点 x x x 相关的切向量。(疑问: x x x 不是一个数值吗,为什么说是一个点?当我们提到 x x x 时,它并不是一个数字(比如 3 或 7),而是流形中的某个具体位置。比如,在二维平面上, x x x 可以是 ( x 1 , x 2 ) (x_1, x_2) (x1,x2),即平面上的一个点。而在更复杂的几何空间中, x x x 就是该空间中的一个点。)
250318:切空间是一个几何概念,它描述了在某个点附近,流形(例如曲面或多维空间)的所有可能的切线方向。简单来说,切空间就是给定点附近的“所有方向”。如果你想在一个曲面上走,那么切空间就是你可以在该点开始走的所有方向。

指数映射与对数映射(Exponential and Logarithmic Maps)

双曲空间 L K n \mathbb{L}_K^n LKn欧几里得子空间 T x L K n \mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n TxLKn 之间的点映射可以通过指数映射(Exponential Map)对数映射(Logarithmic Map) 来完成。指数映射可以将任意切向量 z ∈ T x L K n \mathbf{z} \in \mathcal{T}_{\mathbf{x}} \mathbb{L}_K^n zTxLKn 映射到 L K n \mathbb{L}_K^n LKn,而对数映射是一个逆映射,它将点映射回切空间。这两个映射可以表示如下:

指数映射:
exp ⁡ x K ( z ) = cosh ⁡ ( − K ∥ z ∥ L ) x + sinh ⁡ ( − K ∥ z ∥ L ) z − K ∥ z ∥ L , (4) \exp_{{x}}^K (\mathbf{z}) = \cosh(\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}) \mathbf{x} + \sinh(\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}) \frac{\mathbf{z}}{\sqrt{-K} \|\mathbf{z}\|_{\mathcal{L}}}, \tag{4} expxK(z)=cosh(K zL)x+sinh(K zL)K zLz,(4)

对数映射:
log ⁡ x K ( y ) = d L K ( x , y ) y − K ⟨ x , y ⟩ L ∥ y − K ⟨ x , y ⟩ L ∥ L , (5) \log_{\mathbf{x}}^K (\mathbf{y}) = d_{\mathbb{L}}^K (\mathbf{x}, \mathbf{y}) \frac{\mathbf{y} - K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}} }{\|\mathbf{y} - K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}} \|_{\mathcal{L}}}, \tag{5} logxK(y)=dLK(x,y)yKx,yLLyKx,yL,(5)

其中 ∥ z ∥ L = ⟨ z , z ⟩ L \|\mathbf{z}\|_{\mathcal{L}} = \sqrt{\langle \mathbf{z}, \mathbf{z} \rangle_{\mathcal{L}}} zL=z,zL 表示 z \mathbf{z} z洛伦兹范数,而 d L K ( ⋅ , ⋅ ) d_{\mathbb{L}}^K (\cdot, \cdot) dLK(,) 表示两个点 x , y ∈ L K n \mathbf{x}, \mathbf{y} \in \mathbb{L}_K^n x,yLKn 之间的洛伦兹本征距离函数,其计算方式如下:

d L K ( x , y ) = arccosh ⁡ ( K ⟨ x , y ⟩ L ) . (6) d_{\mathbb{L}}^K (\mathbf{x}, \mathbf{y}) = \operatorname{arccosh} (K \langle \mathbf{x}, \mathbf{y} \rangle_{\mathcal{L}}). \tag{6} dLK(x,y)=arccosh(Kx,yL).(6)

250318:cos和cosh的区别?cos就是余弦函数,cosh是双曲余弦函数。
250318:本质上是在局部平坦的切空间和弯曲的双曲空间之间建立联系。
250318:洛伦兹本征距离函数和洛伦兹标量积的关系? 在洛伦兹空间中,标量积给出了两点的相对关系,这个值可以看作是两点之间的“夹角”度量。然后通过反双曲余弦函数(arccosh)将内积值转化为实际的几何距离(即洛伦兹本征距离)。

3.1 双曲图卷积网络(Hyperbolic Graph Convolutional Networks)

近年来,已有多个双曲 GCN(Hyperbolic GCN)被提出,以扩展欧几里得图卷积到双曲模型,并在多个场景下取得了良好的效果[29]。为了适应广泛使用的欧几里得神经操作(如矩阵-向量乘法)在双曲空间中的应用,现有方法主要采用混合方式执行运算,即利用对数映射(logarithmic maps)和指数映射(exponential maps)在双曲空间与切空间之间进行特征变换,并在切空间中执行神经操作。例如,在 HGCN[4] 中,设 h i , K n ∈ H K n h_{i,K}^n \in \mathbb{H}_K^n hi,KnHKn 为超双曲流形 H K n \mathbb{H}_K^n HKn 上节点 i i i n n n 维节点特征, N ( i ) N(i) N(i) 表示其邻居集合,邻接矩阵为 A i j A_{ij} Aij,权重矩阵为 W \mathbf{W} W。其信息传递规则包括特征变换(feature transformation)

h i , K d = exp ⁡ 0 K ( W log ⁡ 0 K ( h i , K n ) ) , (7) h_{i,K}^{d} = \exp_0^K \left( \mathbf{W} \log_0^K \left( h_{i,K}^{n} \right) \right), \tag{7} hi,Kd=exp0K(Wlog0K(hi,Kn)),(7)

以及邻域聚合(neighborhood aggregation)

Agg ⁡ ( h i , K d ) = exp ⁡ h i K ( ∑ j ∈ N ( i ) ∪ i A i j log ⁡ h i K ( h i , K d ) ) , (8) \operatorname{Agg} (h_{i,K}^{d}) = \exp_{h_i}^K \left( \sum_{j \in N(i) \cup i} A_{ij} \log_{h_i}^K \left( h_{i,K}^{d} \right) \right), \tag{8} Agg(hi,Kd)=exphiK jN(i)iAijloghiK(hi,Kd) ,(8)

其中 exp ⁡ 0 K ( ⋅ ) \exp_0^K(\cdot) exp0K() log ⁡ 0 K ( ⋅ ) \log_0^K(\cdot) log0K() 分别表示 H K n \mathbb{H}_K^n HKn 上的指数映射和对数映射。然而,上述混合方法并未完全满足双曲几何要求,可能会导致图中节点特征的失真,从而削弱模型的稳定性[52, 5]。

250318: A i j A_{ij} Aij 是邻接矩阵元素,表示节点 i i i 和节点 j j j 之间的连接关系。
250318:公式 8 就是对邻居信息的一个聚合,聚合的时候先把双曲特征映射为欧式特征,然后再聚合,聚合完后再映射回双曲特征(双曲特征是我自己为了方便起的名字,表示在双曲空间中的特征)。

因此,Chen et al. [5] 提出了一种基于洛伦兹模型的完全双曲神经网络,该网络通过调整洛伦兹变换(包括升速变换和旋转变换)来形式化基本的神经操作,并证明了在双曲空间原点的切空间中进行的线性变换等价于执行带有放宽约束的洛伦兹旋转。读者可以参考[5]获取更详细的推导。为了简化,他们提供了其双曲线性层(feature transformation)的更一般公式,结合了激活函数、dropout、偏置和归一化:

y = HL ⁡ ( x ) = [ ∥ ϕ ( W x , v ) ∥ 2 − 1 / K ϕ ( W x , v ) ] , (9) \mathbf{y} = \operatorname{HL}(\mathbf{x}) = \begin{bmatrix} \sqrt{\|\phi(\mathbf{W} \mathbf{x}, \mathbf{v})\|^2 - 1/K} \\ \phi(\mathbf{W} \mathbf{x}, \mathbf{v}) \end{bmatrix}, \tag{9} y=HL(x)=[ϕ(Wx,v)21/K ϕ(Wx,v)],(9)

其中, x ∈ L K n \mathbf{x} \in \mathbb{L}_K^n xLKn W ∈ R d × ( n + 1 ) \mathbf{W} \in \mathbb{R}^{d \times (n+1)} WRd×(n+1) v ∈ R n + 1 \mathbf{v} \in \mathbb{R}^{n+1} vRn+1 表示洛伦兹变换中的速度(与光速之比), ϕ \phi ϕ 是操作函数:

  • 对于 dropout,函数为 ϕ ( W x , v ) = W Dropout ⁡ ( x ) \phi(\mathbf{W} \mathbf{x}, \mathbf{v}) = \mathbf{W} \operatorname{Dropout} (\mathbf{x}) ϕ(Wx,v)=WDropout(x)
  • 对于激活和归一化, ϕ ( W x , v ) = λ σ ( v ⊤ x + b ′ ) ∥ W h ( x ) + b ∥ ( W h ( x ) + b ) \phi(\mathbf{W} \mathbf{x}, \mathbf{v}) = \frac{\lambda \sigma(\mathbf{v}^{\top} \mathbf{x} + b')}{\|\mathbf{W} h(\mathbf{x}) + b\|} (\mathbf{W} h(\mathbf{x}) + b) ϕ(Wx,v)=Wh(x)+bλσ(vx+b)(Wh(x)+b),其中 σ \sigma σ 是 sigmoid 函数, b b b b ′ b' b 是偏置项, λ > 0 \lambda > 0 λ>0 控制缩放范围, h h h 是激活函数。

250318:这里还是做了特征变换的事情呀。
250318:公式 9 好像少了一个除法的线,后面需要去看一下论文 [5]
250318:这里的 ϕ \phi ϕ 好像是代表了激活函数、dropout、偏置和归一化,也就是说可以通过 HL ⁡ ( x ) \operatorname{HL}(\mathbf{x}) HL(x) 来进行3中操作,不用再像之前那样先转到欧式空间计算然后再转到双曲空间了。

此外,他们提出的邻域聚合(neighborhood aggregation) 定义如下:

HyperAgg ⁡ ( y i ) = ∑ j = 1 m A i j y j − K ∥ ∑ k = 1 m A i k y k ∥ L , (10) \operatorname{HyperAgg} (\mathbf{y}_i) = \frac{\sum_{j=1}^{m} A_{ij} \mathbf{y}_j} {\sqrt{-K} \left\| \sum_{k=1}^{m} A_{ik} \mathbf{y}_k \right\|_{\mathcal{L}}}, \tag{10} HyperAgg(yi)=K k=1mAikykLj=1mAijyj,(10)

其中, m m m 是点的数量。由于非线性激活已经集成到双曲线性层中,该方法在最后一步省略了非线性激活。在我们的研究中,我们将完全双曲图卷积网络集成到框架中,以探索在双曲空间中学习实例表示的有效性。

250318:这里还是对邻居信息的一个聚合,只不过结合了曲率和洛伦兹范数。

4. 方法(Method)

在本节中,我们首先定义问题的公式化表达。然后,我们详细介绍我们提出的框架,该框架主要由四个部分组成:绕行融合(detour fusion)、双曲特征相似性图分支(hyperbolic feature similarity graph branch)、双曲时序关系图分支(hyperbolic temporal relation graph branch)和双曲分类器(hyperbolic classifier)。该框架的示意图如图 2 所示。
在这里插入图片描述
图 2:我们的 HyperVD 框架概述。我们的框架由四个部分组成:绕道融合、双曲特征相似性图分支、双曲时间关系图分支和双曲分类器。通过使用从预训练网络中提取的音频和视觉特征作为输入,我们设计了一个简单而有效的模块来融合音视频信息。然后,两个双曲图分支分别在双曲空间中通过特征相似性和时间关系学习实例表示。最后,部署了一个双曲分类器来预测每个实例的暴力分数。整个框架在弱监督的方式下共同训练,并采用多实例学习(MIL)策略进行优化。

4.1 公式化表达与问题定义(Formulation and Problem Statement)

给定一个音视频序列 M = { M i V , M i A } i = 1 T M = \{M_i^V, M_i^A\}_{i=1}^{T} M={MiV,MiA}i=1T,其中包含 T T T不重叠的多模态片段,每个片段包含 16 帧, M i V M_i^V MiV M i A M_i^A MiA 分别表示视觉和音频片段。视频级标注 Y ∈ { 1 , 0 } Y \in \{1,0\} Y{1,0} 指示该视频中是否存在暴力事件。

为了避免额外的训练开销,我们利用经过充分训练的主干网络(I3D[19] 和 VGGish[12, 18])提取视觉特征 X V ∈ R T × D X^V \in \mathbb{R}^{T \times D} XVRT×D 和音频特征 X A ∈ R T × d X^A \in \mathbb{R}^{T \times d} XART×d,其中 D D D d d d 分别表示特征维度。

与先前研究[44, 47, 35, 21]类似,我们的方法采用多实例学习(MIL) 过程,以弱监督方式判断视频是否包含暴力事件(实例),仅利用视频级标签 Y Y Y 进行优化。

4.2 多模态融合(Multimodal Fusion)

在本节中,我们讨论了几种常见的多模态融合方法,这些方法在早期和中期阶段用于比较实验。

拼接融合(Concat Fusion)

一种直接的方法是简单地连接两种模态的所有特征,然后通过全连接层(FC)进行融合。拼接融合方案的输出 X X X 可表示为 X = f ( X A ⊕ X V ) X = f(X^A \oplus X^V) X=f(XAXV),其中 f ( ⋅ ) f(\cdot) f() 是两层全连接网络(FC), ⊕ \oplus 表示拼接操作。

加性融合(Additive Fusion)

我们使用逐元素加法来结合两种模态的信息,即 X = f a ( X A ) + f v ( X V ) X = f_a(X^A) + f_v(X^V) X=fa(XA)+fv(XV),其中 f a ( ⋅ ) f_a(\cdot) fa() f v ( ⋅ ) f_v(\cdot) fv() 是两个对应的全连接网络(FC),用于保持输入特征的维度一致。

门控融合(Gated Fusion)

我们研究了一种门控融合方法,该方法由 [20] 提出,允许一种模态对另一种模态进行“门控”或“关注(attend)” ,采用 sigmoid 非线性操作,即 X = W ( U X A ∗ V X V ) X = W(U X^A * V X^V) X=W(UXAVXV),其中 U , V , W U, V, W U,V,W 为权重矩阵。可以将这种方法视为从一个模态到另一个模态的注意力机制。

双线性 & 拼接(Bilinear & Concat)

我们利用两个线性层分别处理两种模态的输入特征,并保持它们的维度一致,然后进行拼接操作,即 X = U X A ⊕ V X V X = U X^A \oplus V X^V X=UXAVXV,其中 U U U V V V 为权重矩阵。

我们的绕行融合(Our Detour Fusion)

X V X^V XV X A X^A XA 分别表示由主干网络提取的视觉和音频特征, X = { x i } i = 1 T X = \{ x_i \}_{i=1}^{T} X={xi}i=1T 表示来自两种模态特征的融合。

在音视频暴力检测任务中,音频和视觉信号之间存在显著的模态不平衡,这与典型的多模态任务不同。音频信号常常受到捕获设备噪声的影响,从而降低其质量。另一方面,视觉信号往往更具信息量和可靠性,使其对暴力检测至关重要。基于这一直觉,相较于听觉模态,视觉模态在暴力检测中的贡献可能更大。因此,我们采用了一种简单高效的绕行融合(detour fusion)方法,仅将视觉特征输入到全连接(FC)层,确保视觉特征的维度与音频特征相同。然后,我们将视觉和音频特征进行拼接,以形成联合表示,记作 X = f v ( X V ) ⊕ X A X = f_v(X^V) \oplus X^A X=fv(XV)XA,其中 f v f_v fv 是两层全连接(FC), X ∈ R T × 2 d X \in \mathbb{R}^{T \times 2d} XRT×2d

在一定程度上,这种绕行操作可以赋予视觉模态比音频模态更高的重要性。实验结果验证了我们提出的绕行融合方法的有效性,其性能优于常见的融合技术。关于其他融合方法的具体实现细节,可在附录中找到。

250319:为什么做个 FC 就更重要了?全连接层(FC)通过 线性变换 对输入的视觉特征进行处理,并通过 激活函数 添加非线性。通过这种方式,视觉特征得到了增强,使其在后续的融合中具有更强的影响力。我感觉可以简单认为做了更复杂的非线性变换,会让该特征更重要吧。

4.3 HFSG 分支(HFSG Branch)

先前的研究表明,GCN 在视频理解任务中展现了良好的性能 [39, 53, 48, 44]。在本研究中,我们利用完全双曲 GCN 通过双曲几何学习判别性表示。我们首先通过指数映射 exp ⁡ x K ( ⋅ ) \exp_{\mathbf{x}}^K (\cdot) expxK() 将融合特征 X X X 投影到双曲空间,得到 X ^ ∈ L K T × 2 d \hat{X} \in \mathbb{L}_K^{T \times 2d} X^LKT×2d。然后,我们通过双曲特征相似性定义邻接矩阵 A L ∈ R T × T A^{\mathbb{L}} \in \mathbb{R}^{T \times T} ALRT×T

A i j L = s o f t m a x ( g ( x ^ i , x ^ j ) ) , (11) A^{\mathbb{L}}_{ij} = softmax(g(\hat{x}_i, \hat{x}_j)),\tag{11} AijL=softmax(g(x^i,x^j)),(11)

g ( x ^ i , x ^ j ) = exp ⁡ ( − d L K ( x ^ i , x ^ j ) ) , (12) g(\hat{x}_i, \hat{x}_j) = \exp(-d_{\mathbb{L}}^K (\hat{x}_i, \hat{x}_j)),\tag{12} g(x^i,x^j)=exp(dLK(x^i,x^j)),(12)

其中元素 A i j L A^{\mathbb{L}}_{ij} AijL 通过洛伦兹本征距离 d L K ( ⋅ , ⋅ ) d_{\mathbb{L}}^K(\cdot, \cdot) dLK(,) 衡量第 i i i 个和第 j j j 个片段之间的双曲特征相似性,而不是使用余弦相似度或其他欧几里得度量方式。由于邻接矩阵应为非负数,我们利用指数函数 exp ⁡ ( ⋅ ) \exp(\cdot) exp() 将相似性限制在 ( 0 , 1 ] (0,1] (0,1] 之间。

在执行 s o f t m a x softmax softmax 归一化之前,我们还采用了阈值操作,以消除较弱的关系,并加强双曲空间中更相似对之间的相关性。阈值操作定义如下:

g ( x ^ i , x ^ j ) = { g ( x ^ i , x ^ j ) , g ( x ^ i , x ^ j ) > τ 0 , g ( x ^ i , x ^ j ) ≤ τ (13) g(\hat{x}_i, \hat{x}_j) = \begin{cases} g(\hat{x}_i, \hat{x}_j), & g(\hat{x}_i, \hat{x}_j) > \tau \\ 0, & g(\hat{x}_i, \hat{x}_j) \leq \tau \end{cases} \tag{13} g(x^i,x^j)={g(x^i,x^j),0,g(x^i,x^j)>τg(x^i,x^j)τ(13)

其中 τ \tau τ 为阈值。

250319:这部分就是告诉我们是如何再双曲空间中求邻接矩阵的。

鉴于双曲嵌入 X ^ \hat{X} X^,我们利用双曲线性层 HL ⁡ ( ⋅ ) \operatorname{HL}(\cdot) HL() 进行特征变换(feature transformation),其中包含用于非线性激活的激活层,并随后执行邻域聚合(neighborhood aggregation),即 HyperAgg ⁡ \operatorname{HyperAgg} HyperAgg,如公式 10 中所述。整体操作如下:

x ^ i l = ∑ j = 1 T A i j L HL ⁡ ( x ^ i l − 1 ) − K ∥ ∑ k = 1 T A i k L HL ⁡ ( x ^ i l − 1 ) ∥ L , (14) \hat{x}_i^l = \frac{\sum_{j=1}^{T} A^{\mathbb{L}}_{ij} \operatorname{HL} (\hat{x}_i^{l-1})} {\sqrt{-K} \left\| \sum_{k=1}^{T} A^{\mathbb{L}}_{ik} \operatorname{HL} (\hat{x}_i^{l-1}) \right\|_{\mathcal{L}}}, \tag{14} x^il=K k=1TAikLHL(x^il1) Lj=1TAijLHL(x^il1),(14)

其中, x ^ i l \hat{x}_i^l x^il 表示第 i i i 个片段在第 l l l 层的双曲表示。

250319:这个是把公式9和公式10放到一起的结果,顺便解释一下 l l l l − 1 l-1 l1,因为在 GCN 中,每一层的节点特征都表示了该节点与其邻居的关系,而每一层之间的传播过程让节点能够学习到越来越丰富的信息,所以当前层会根据上一层的信息进行聚合,然后把上一层信息的聚合结果作为当前层的输出。

该分支的输出计算如下:

X ^ L = Dropout ⁡ ( LeakyReLU ⁡ ( X ^ l + 1 ) ) . (15) \hat{X}^{\mathbb{L}} = \operatorname{Dropout}(\operatorname{LeakyReLU}(\hat{X}^{l+1})). \tag{15} X^L=Dropout(LeakyReLU(X^l+1)).(15)

250319: l + 1 l+1 l+1 应该是表示这是最后一层。

4.4 HTRG 分支(HTRG Branch)

尽管双曲特征相似性分支可以通过测量任意两个位置的片段之间的相似性来捕获远程依赖关系,而不受其时间位置信息的影响,但时间关系在许多基于视频的任务中同样至关重要。为了解决这一问题,我们直接基于视频的时间结构构建了时间关系图,并在双曲空间中学习片段之间的时间关系。其邻接矩阵 A T ∈ R T × T A^{\mathbb{T}} \in \mathbb{R}^{T \times T} ATRT×T 仅依赖于第 i i i 个和第 j j j 个片段的时间位置,其定义如下:

A i j T = exp ⁡ ( − ∥ i − j ∥ γ ) , (16) A^{\mathbb{T}}_{ij} = \exp(-\|i - j\|^\gamma), \tag{16} AijT=exp(ijγ),(16)

其中, γ \gamma γ 是控制时间距离范围的超参数。

同样地,我们通过 X ^ = exp ⁡ x K ( X ) \hat{X} = \exp_{\mathbf{x}}^K (X) X^=expxK(X) 获得双曲嵌入,并将 X ^ \hat{X} X^ A T A^{\mathbb{T}} AT 输入到双曲 GCN 中,以通过公式 14 学习双曲空间中的时间关系。最终输出计算如下:

X ^ T = Dropout ⁡ ( LeakyReLU ⁡ ( X ^ l + 1 ) ) . (17) \hat{X}^{\mathbb{T}} = \operatorname{Dropout}(\operatorname{LeakyReLU}(\hat{X}^{l+1})). \tag{17} X^T=Dropout(LeakyReLU(X^l+1)).(17)

250319:这里的话,即使把邻接矩阵换了一下,然后根据公式14和公式15得到公式17,几乎一摸一样的操作。
250319:这里的 T \mathbb{T} T 应该就是一个记号表明是和这个双曲时间关系图分支的输出,而且上面那个分支的 L \mathbb{L} L 应该也是个记号吧,不过不太确定都。

4.5 双曲分类器(Hyperbolic Classifier)

两个分支的输出嵌入仍位于双曲流形上,因此无法直接使用基于欧几里得的线性层进行分类。如图 2 所示,为了预测暴力分数 S ∈ R T × 1 S \in \mathbb{R}^{T \times 1} SRT×1,我们将这些嵌入拼接并输入到双曲分类器中,其数学公式如下:

S = σ ( ( ϵ + ϵ < X ^ L ⊕ X ^ T , W > L ) + b ) , (18) S = \sigma \left( (\epsilon + \epsilon < \hat{X}^{\mathbb{L}} \oplus \hat{X}^{\mathbb{T}}, W >_{\mathcal{L}}) + b \right), \tag{18} S=σ((ϵ+ϵ<X^LX^T,W>L)+b),(18)

其中, σ \sigma σ 是 Sigmoid 函数, W W W 为权重矩阵, b b b ϵ \epsilon ϵ 分别表示偏置项和超参数。

4.6 目标函数(Objective Function)

在本研究中,暴力检测被视为在弱监督下的多实例学习(MIL) 任务。参考 [44, 35],我们使用视频包中 k k k 个最大预测分数的均值作为暴力分数,其中: k = ⌊ T q + 1 ⌋ . k = \left\lfloor \frac{T}{q} + 1 \right\rfloor. k=qT+1. 在正样本包(positive bag)中,得分较高的 k k k-max 预测值更有可能包含暴力事件,而负样本包(negative bag)中的 k k k-max 预测值通常是难样本。因此,目标函数定义如下:

L M I L = 1 N ∑ i = 1 N − Y i log ⁡ ( S ˉ ) , (19) L_{MIL} = \frac{1}{N} \sum_{i=1}^{N} -Y_i \log (\bar{S}), \tag{19} LMIL=N1i=1NYilog(Sˉ),(19)

其中, S ˉ \bar{S} Sˉ 表示视频包中 k k k-max 预测值的均值, Y i Y_i Yi 为二值化的视频级标注。

250319: T T T 是片段个数,但是 q q q 呢? N N N 呢?
250319:后面实现细节那里又说, T T T 是输入特征的长度, q = 16 q=16 q=16 应该是个超参数。

5. 实验(Experiments)

5.1 实现细节(Implementation Details)

特征提取(Feature Extraction):为了公平比较,我们采用与先前方法 [36, 44, 27, 47] 相同的特征提取过程。具体来说,视觉特征使用在 Kinetics-400 数据集上预训练的 I3D 网络 [3] 提取。对于音频特征,我们采用在大型 YouTube 视频数据集上预训练的 VGGish 网络 [12, 18]。视觉特征以每秒 24 帧的采样率提取,使用窗口大小为 16 帧的滑动窗口方法。对于听觉数据,我们将每个音频录音划分为 960 毫秒的片段,并计算使用 96 × 64 频率箱的 log-mel 频谱图。这允许我们提取丰富且具有信息量的听觉特征,这些特征可以与视觉特征结合,从而增强暴力检测模型的性能。

250319:这里倒是给了一点启发,我之前还考虑有的视频帧率不一样,所以在使用帧计算时间的时候很麻烦,如果直接假设一个前提,每秒24帧,那么我就这样子强制做,应该就简单很多了吧。

HyperVD 架构和设置(HyperVD Architecture and Settings):对于绕行融合模块,我们应用了两个 1D 卷积层,使用 LeakyReLU 激活函数和 dropout 来学习视觉特征。在双曲空间中,我们使用两个双曲图卷积层来学习时序关系。

训练细节(Training Details) :整个网络在 NVIDIA RTX 3090 GPU 上训练了 50 个 epoch。我们设置训练期间的 batch 大小为 128,并将初始学习率设置为 5e-4,该学习率通过余弦退火调度器动态调整。对于超参数,我们设置 γ = 1 \gamma = 1 γ=1 ϵ = 2 \epsilon = 2 ϵ=2,并设置 dropout 比例为 0.6。我们使用 Adam 优化器,无权重衰减。对于 MIL,我们将 k k k 的值设置为 k = ⌊ T 16 + 1 ⌋ k = \left\lfloor \frac{T}{16} + 1 \right\rfloor k=16T+1,其中 T T T 表示输入特征的长度。

5.2 数据集(Dataset)

XD-Violence [44] 是一个最近发布的大规模音视频暴力检测数据集,包含来自真实世界的电影、网页视频、体育直播、监控摄像头和 CCTV 视频。该数据集包含 4754 部未经修剪的电影,训练集中的视频级标签和测试集中的帧级标签,视频总时长近 217 小时。参考 [44, 27, 47],我们选择 XD-Violence 数据集作为基准,验证我们提出的多模态框架的效率。在推理过程中,我们使用平均精度(Average Precision, AP)指标进行评估,沿用了之前的工作[36, 44, 27, 47]。需要注意的是,AP 值越高,表明在数据集上的性能越好。

5.3 定量结果(Quantitative Results)

我们将提出的方法与先前的最先进方法进行了比较,包括(1)无监督方法:SVM 基线,OCSVM[34],和 Hasan et al. [17];(2)单模态弱监督方法:Sultani et al. [35],Wu et al. [43] RTFM [36],MSL [21],S3R [42],UR-DMU [54] 和 Zhang et al. [49];(3)音视频弱监督方法:Wu et al. [44],Pang et al. [27],MACIL-SD [47],UR-DMU [54] 和 Zhang et al. [49]。在 XD-Violence 数据集上的 AP 结果如表 1 所示。
在这里插入图片描述

在视频级标签监督下评估时,我们的方法在 AP 上超越了所有无监督方法,达到了最先进的性能,且超出了所有方法显著的差距。与之前的单模态弱监督方法相比,我们的方法提高了至少 4.01%。与最先进的弱监督多模态方法 MACIL-SD [47] 相比,我们的方法提高了 2.27%。这些结果证明了我们提出的学习实例表示的有效性,尤其是在双曲空间中的学习,并且展示了它在提升暴力检测模型性能方面的潜力。

与其他方法相比,我们的方法具有最小的模型大小(0.607M),同时仍然超越了所有先前的方法。这些结果证明了我们框架的高效性,框架利用了更简单的网络架构,同时达到了卓越的性能。对于模型复杂度和推理能力,表 5 给出了在测试集上计算的平均推理时间和 FLOPS(浮动点操作)。由于现有的计算工具包(如 fvcore)不支持某些特殊数学函数来计算 FLOPS,因此我们提供了推理时间的结果,并发现双曲几何的引入会增加一些推理成本,但模型性能的提升非常显著。
在这里插入图片描述
表5:模型复杂性和推理能力的消融实验结果。推理时间(Time)是在测试集上进行一次迭代,并进行5次预热迭代后测量的。

250319:推理时间是在进行一次完整的迭代后测量的,但为了保证测试的稳定性,进行5次“预热”(即模型在正式开始测试之前的几个迭代,以让模型达到稳定状态)来消除启动时的影响。

5.4 定性结果(Qualitative Results)

为了进一步评估我们的方法,我们首先可视化了在 XD-Violence 上的预测结果,如图 3 所示。如图中所示,对于暴力视频,我们的方法不仅生成了精确的检测区域,还生成了更高的异常分数,且高于正常视频中的分数。在非暴力视频中,我们的方法几乎没有对正常片段产生预测。
在这里插入图片描述
图3:异常分数曲线的可视化。横轴表示时间,纵轴表示异常分数。第一行包括两段包含暴力事件的视频样本,第二行则包括正常视频的样本。蓝色曲线表示视频帧的预测异常分数,红色区域表示异常事件的位置。

此外,我们提供了图 4 来展示 vanilla、欧几里得和双曲特征空间的可视化。双曲特征首先被转换到欧几里得空间进行计算,使用 t-SNE [23] 工具。结果展示了暴力和非暴力特征在双曲空间中的清晰聚类,并且经过训练后,未关联的特征之间的距离增加。值得注意的是,在双曲空间中训练的特征需要转换为欧几里得空间,然后使用 t-SNE 工具进行计算。我们还提供了针对双曲空间设计的 CO-SNE [16] 可视化工具,详见附录。
在这里插入图片描述
图4:原始特征(左)、通过欧几里得空间训练的特征(中)以及通过双曲空间训练的特征(右)的特征空间可视化。所有结果均在XD-Violence测试集上进行。红点表示非暴力特征,绿色点表示暴力特征。

5.5 消融实验(Ablation Studies)

为了探究提出的框架中关键组件的贡献,我们进一步进行了广泛的消融实验,以展示其效率。

我们首先在不同的多模态融合方式上进行比较实验,结果如表 2 所示。我们的绕行融合方法(Detour Fusion)在使用拼接(Concat)融合时的性能为 85.67%,比仅使用拼接融合提高了 2.32%。此外,Wu et al. [44] 采用了一种早期融合的拼接方式。我们使用绕行融合模块重新实现了他们的方法,并获得了 1.22% 的改进。
在这里插入图片描述

然后,我们探讨了完全双曲 GCN(FHGCN)对框架的贡献,结果如表 3 所示,揭示了与标准欧几里得空间中的 GCN 相比,从 76.87% 提升至 85.67%的显著性能提升。此外,配备 Lorentz 模型的 FHGCN 在数值稳定性上使得我们的方法能够超越使用 Poincaré 模型的 HGCN,实现了 2.79% 的改进。如表 3 所示,我们还评估了使用多种特征相似度度量的模型性能。我们的研究发现,使用 Lorentz 距离进行 Lorentz 模型的特征相似度捕捉能力优于欧几里得空间的传统方法。
在这里插入图片描述

250319:E 表示 欧几里得空间(Euclidean model);B 表示 庞加莱空间(Poincaré model);L 表示 洛伦兹空间(Lorentz model)

随后,我们分析了提出的 HFSG 分支和 HTRG 分支的贡献。表 4 中的结果表明了每个分支的重要性。当两者结合时,我们的方法能够达到最佳的 85.67% AP 性能。
在这里插入图片描述

最后,在图 5 中,我们展示了预测结果,以便进行定性分析。视觉比较显示,我们的方法通过利用双曲几何,有效地减轻了暴力和非暴力片段中的预测噪声,超越了使用欧几里得几何的基线和变种方法。这证明了我们方法在捕捉之前无法区分的细微语义差异方面的卓越能力。
在这里插入图片描述

6. 额外结果与分析(Additional Results and Analysis)

6.1 复杂度分析(Complexity Analysis)

我们的方法在设计上也注重计算效率,不引入过多的参数。绕行融合模块通过全连接层学习视觉特征,并包含主要的模型参数。相比之下,HFSG 和 HTRG 分支则相对轻量,主要由在学习到的嵌入上运行的双曲图卷积层组成。与其他方法相比,我们的方法具有最小的模型大小(0.607M),同时仍超越了所有先前的方法。这些结果展示了我们框架的效率,它利用了更简单的网络架构,同时实现了更优的性能。

6.2 训练稳定性(Training Stability)

我们进一步提供了在 50 个 epoch 中的准确率曲线的比较结果,如图 7 所示。值得注意的是,在 HGCN 和 FHGCN 中,双曲特征相似度分支的相似度矩阵分别是通过 Poincaré 距离和 Lorentz 距离度量的。正如所示,基于 GCN 的方法产生了显著的抖动结果。得益于 Lorentz 模型的数值稳定性,我们的方法配备了 FHGCN,相比其他方法,在整个训练过程中更加稳定。
在这里插入图片描述

6.3 不同超参数下的消融结果(Ablative Results with Different Hyper-parameters)

如表 1、表 6 和表 7 所示,我们还提供了在方法中采用的不同超参数的消融实验结果。在表 6 中,相比欧几里得方法(如 Wu et al. [30]),该模型在小嵌入维度(32)下能够获得有前景的结果(80.46%),并保持轻量级(0.609M)和快速(2.585s)。表 7 展示了 FHGCN 隐藏维度和层数对模型性能的影响。
在这里插入图片描述
表6:我们方法中不同输入维度的双曲GCN的消融实验结果。值得注意的是,为了输入任意大小的HFSG和HTRG分支的输入维度,我们采用了连接方式进行多模态融合。推理时间(Time)是在测试集上进行一次迭代,并进行5次预热迭代后测量的。
在这里插入图片描述
表7:我们方法中不同层数和隐藏维度的双曲GCN的消融实验结果。左侧的三列是不同层数的结果,右侧的三列是不同隐藏维度的结果。

6.4 CO-SNE 和 T-SNE 可视化(CO-SNE and T-SNE Visualization)

我们应用专为双曲数据设计的 CO-SNE [16] 来可视化 vanilla 嵌入和通过双曲神经网络生成的训练嵌入。对于接近 Poincaré 球边界的高维双曲数据点,标准的 t-SNE 通常会错误地低估它们之间的距离,导致低维嵌入压缩到一个点,从而造成差的可视化 [16]。具体而言,我们采用变换函数将 Lorentz 模型的嵌入投影到 Poincaré 空间,并利用 CO-SNE 进行可视化。如图 6 所示,左侧列展示了没有训练的 vanilla 嵌入,右侧列展示了经过我们模型训练后的嵌入,我们可以观察到暴力特征和非暴力特征在训练后被很好地分开,例如,暴力特征靠近中心,而非暴力特征被推向边界。
在这里插入图片描述
图6:我们模型中高维原始嵌入和输出双曲嵌入在二维特征空间中的投影,使用CO-SNE [16],该方法能够保留高维双曲数据点的层次结构和相似性结构。红色点表示暴力嵌入,蓝色点表示非暴力嵌入。

7. 结论

在本文中,我们研究了音视频场景下的模态不一致性和欧几里得空间中学习实例表示的不足。然后,提出了一个结合了 detour 融合模块和两个双曲图学习分支的 HyperVD 框架来解决上述问题。具体来说,我们设计了一种 detour 融合策略,以抑制音频信号的负面影响,缓解跨模态的信息不一致。此外,还提出了一个双曲特征相似性图分支和一个双曲时序关系图分支,分别用于学习片段间的相似特征和时序关系。我们的 HyperVD 在 XD-Violence 数据集上显著超越了之前的方法,展示了双曲空间中实例表示学习的优越性。

我们相信双曲几何在各种视频理解和解释任务中具有巨大的潜力,如视频异常检测和事件定位。我们致力于进一步探索双曲几何在这些以及其他相关领域中的力量。

相关文章:

HyperAD:学习弱监督音视频暴力检测在双曲空间中的方法

文章目录 速览摘要1. 引言2. 相关工作弱监督暴力检测双曲空间中的神经网络 3. 预备知识双曲几何切空间&#xff08;Tangent Space&#xff09;指数映射与对数映射&#xff08;Exponential and Logarithmic Maps&#xff09;3.1 双曲图卷积网络&#xff08;Hyperbolic Graph Con…...

网络协议抓取与分析(SSL Pinning突破)

1. 网络协议逆向基础 1.1 网络协议分析流程 graph TD A[抓包环境配置] --> B[流量捕获] B --> C{协议类型} C -->|HTTP| D[明文解析] C -->|HTTPS| E[SSL Pinning突破] D --> F[参数逆向] E --> F F --> G[协议重放与模拟] 1.1.1 关键分析目标…...

基于C#的以太网通讯实现:TcpClient异步通讯详解

基于C#的以太网通讯实现&#xff1a;TcpClient异步通讯详解 在现代工业控制和物联网应用中&#xff0c;以太网通讯是一种常见的数据传输方式。本文将介绍如何使用C#实现基于TCP协议的以太网通讯&#xff0c;并通过异步编程提高通讯效率。我们将使用TcpClient类来实现客户端与服…...

通过C#脚本更改材质球的参数

// 设置贴图Texture mTexture Resources.Load("myTexture", typeof(Texture )) as Texture;material.SetTexture("_MainTex", mTexture );// 设置整数material.SetInt("_Int", 1);// 设置浮点material.SetFloat("_Float", 0.1f);// 设…...

SpringBoot常用注解

SpringBoot常用注解 SpringBoot框架提供了丰富的注解&#xff0c;极大地简化了应用开发。本文将SpringBoot常用注解按功能分组&#xff0c;并提供详细说明和使用示例。 一、核心注解 1. SpringBootApplication 这是SpringBoot应用的核心注解&#xff0c;标记在主类上&#…...

Vim 编辑器复制文件所有内容

Vim 编辑器复制文件所有内容 在 Vim 的可视化模式下复制所有内容&#xff0c;可以通过以下步骤完成&#xff1a; 方法 1&#xff1a;可视化模式全选复制 进入可视化模式 按下 V&#xff08;大写 V&#xff09;进入 行可视化模式。 全选内容 依次按下 gg&#xff08;跳转到文件…...

MySQL 安全传输

Doris 开启 SSL 功能需要配置 CA 密钥证书和 Server 端密钥证书&#xff0c;如需开启双向认证&#xff0c;还需生成 Client 端密钥证书&#xff1a; 默认的 CA 密钥证书文件位于Doris/fe/mysql_ssl_default_certificate/ca_certificate.p12&#xff0c;默认密码为doris&#xf…...

【速览】数据库

一、课程性质和特点 数据库系统原理是高等教育自学考试计算机信息管理专业(独立本科段)、计算机网络专业(独立本科段)、计算机及应用专业(独立本科段)、计算机通信工程专业(独立本科段)考试计划的一门专业基础课。本课程的设置目的是为了使应考者掌握数据库系统的基本原理、方法…...

MySQL 中利用 mysql.help_topic 实现行转列的深入剖析

MySQL 中利用 mysql.help_topic 实现行转列的深入剖析 在数据库操作中&#xff0c;我们常常会遇到数据格式转换的需求。其中&#xff0c;行转列是一种常见的数据处理任务&#xff0c;它能将数据从一种便于存储的行结构&#xff0c;转换为更便于分析和展示的列结构。在 MySQL 数…...

学习使用smartengine

1、开源地址 smartengine的地址 GitCode - 全球开发者的开源社区,开源代码托管平台 2、如何基于这个开源的框架实现自己的业务定制 参考一些文章&#xff1a; 探索BPMN—工作流技术的理论与实践&#xff5c;得物技术...

鸿蒙保姆级教学

鸿蒙&#xff08;HarmonyOS&#xff09;是华为推出的一款面向全场景的分布式操作系统&#xff0c;支持手机、平板、智能穿戴、智能家居、车载设备等多种设备。鸿蒙系统的核心特点是分布式架构、一次开发多端部署和高性能。以下是从入门到大神级别的鸿蒙开发深度分析&#xff0c…...

HW华为流程管理体系精髓提炼华为流程运营体系(124页PPT)(文末有下载方式)

资料解读&#xff1a;HW华为流程管理体系精髓提炼华为流程运营体系&#xff08;124页PPT&#xff09; 详细资料请看本解读文章的最后内容。 华为作为全球领先的科技公司&#xff0c;其流程管理体系的构建与运营是其成功的关键之一。本文将从华为流程管理体系的核心理念、构建…...

What a code!

要在前后两个图表之间连接对应的坐标轴刻度点&#xff0c;可以通过在父部件中绘制线条来实现。以下是具体步骤和代码实现&#xff1a; 步骤说明 重写paintEvent函数&#xff1a;在Bigraph的paintEvent中绘制连接线。获取刻度值列表&#xff1a;根据每个坐标轴的最小值、最大值…...

Qt开发中的常见问题与解决方案

目录 1.Qt中大资源文件的处理 2.中文URL编码问题 3.编译器类型、版本与操作系统的判断 4.Qt版本与构建套件位数的判断 5.QWidget样式表不起作用的解决方案 6.动态改变弹簧的拉伸策略 7.文件操作的性能优化 8.自定义心跳包与TCP保活机制 9.Qt平台插件加载失败问题 10.…...

蓝桥杯嵌入式赛道复习笔记3(lcd与led引脚冲突问题)

直接上干货 1.在初始化lcd之前要关闭锁存器 切记一定要开启PD2的引脚&#xff0c;否则白搭 2.在用到的lcd函数要加 uint16_t temp GPIOC->ODR;GPIOC->ODR temp;例如...

【cf】交换

交换数组中元素&#xff0c;逆序对数1&#xff0c;所以逆序对奇偶性发生改变 D. Swap Dilemma https://www.cnblogs.com/pure4knowledge/p/18292578这个写的太好了 任意交换两个数&#xff0c;会使序列的逆序对数加减一个奇数。 所以如果两个序列&#xff0c;初始逆序对数的奇…...

anythingLLM之stream-chat传参

1、 接口地址 /v1/workspace/{slug}/stream-chat POST请求 {"message": "根据以下事件信息找出今天发生的事件有哪几个[{\"事件所在桩号\":\"K1045900\",\"事件发生位置&#xff08;经纬度值&#xff09;\":\"114.149…...

友思特应用 | 行业首创:基于深度学习视觉平台的AI驱动轮胎检测自动化

导读 全球领先的轮胎制造商 NEXEN TIRE 在其轮胎生产检测过程中使用了基于友思特伙伴Neurocle开发的AI深度学习视觉平台&#xff0c;实现缺陷检测率高达99.96%&#xff0c;是该行业首个使用AI平台技术推动缺陷检测自动化流程的企业。 将AI应用从轮胎开发扩展到制造过程 2024年…...

Python 变量的定义与使用:从基础到高级

Python 变量的定义与使用:从基础到高级 在 Python 中,变量是程序中最基本的概念之一。变量用于存储数据,并在程序运行过程中随时访问和修改这些数据。理解变量的定义和使用是学习 Python 编程的第一步。 1. 变量的定义 1.1 什么是变量? 变量是程序中用于存储数据的容器。…...

Linux 系统性能调优

概述 在日常运维和架构优化中&#xff0c;Linux 性能调优是提高系统稳定性和运行效率的重要手段。本文结合工作经验&#xff0c;总结了 Linux 服务器常见的优化技巧&#xff0c;涵盖 CPU、内存、磁盘 I/O、网络等多个方面&#xff0c;帮助大家在不同场景下快速定位和优化系统性…...

蓝桥杯备考:奶牛晒衣服

这道题第一眼想用贪心做&#xff0c;1 2 3 我们可以让最多的3用烘干机1秒就能完成&#xff0c;那么是不是我们每次都给湿度最大的衣服用烘干机呢&#xff1f;我们试试哈&#xff0c;比如[5,8]&#xff0c;每秒晒干1我们给8衣服一直用烘干机是需要4秒的&#xff0c;4秒后8这个…...

英伟达“AI 超级碗”开幕

Nvidia的AI和机器人技术进展 2025年03月19日 | AI日报 ![](https://i-blog.csdnimg.cn/direct/e7838b88f17f40c9a435f6dc48d26c59.jpeg#pic_center) 欢迎各位人工智能爱好者。 Nvidia的CEO Jensen Huang刚刚拉开了他的“AI超级碗”&#xff0c;并发表了关于该公司最新芯片、…...

Java使用FFmpegFrameGrabber进行视频拆帧,结合Thumbnails压缩图片保存到文件夹

引入依赖 <dependency><groupId>net.coobird</groupId><artifactId>thumbnailator</artifactId><version>0.4.17</version></dependency><dependency><groupId>org.bytedeco</groupId><artifactId>ja…...

KVM安全模块生产环境配置与优化指南

KVM安全模块生产环境配置与优化指南 一、引言 在当今复杂多变的网络安全环境下&#xff0c;生产环境中KVM&#xff08;Kernel-based Virtual Machine&#xff09;的安全配置显得尤为重要。本指南旨在详细阐述KVM安全模块的配置方法&#xff0c;结合强制访问控制&#xff08;M…...

如何设计一个 RPC 框架?需要考虑哪些点?

设计一个完整的 RPC 框架需要覆盖以下核心模块及关键技术点&#xff1a; 一、核心架构模块 模块功能与实现要点服务注册与发现使用 Zookeeper/Nacos 等实现服务地址动态注册与订阅&#xff0c;支持心跳检测和节点变更通知网络通信层基于 Netty 或 gRPC 的 HTTP/2 实现异步非阻…...

dify+deepseek联网搜索:免费开源搜索引擎Searxng使用(让你的大模型也拥有联网的功能)

docker安装SearXng 项目地址:https://github.com/searxng/searxng-docker 第一步 git clone下来 git clone https://github.com/searxng/searxng-docker.git第二步 进入 searxng-docker目录中修改docker-compose.yaml(直接复制粘贴) cd searxng-dockerdocker-compose.yaml …...

主流的Java生态下权限管理框架

在当今国内互联网行业中&#xff0c;主流的Java生态下权限管理框架主要分为三类&#xff1a; 通用权限框架&#xff08;含认证和权限&#xff09;权限细粒度控制框架&#xff08;专注资源访问&#xff09;企业级安全认证和权限框架&#xff08;更完善的安全功能&#xff09; &…...

dijkstra算法——47. 参加科学大会

卡码网:47. 参加科学大会https://kamacoder.com/problempage.php?pid=1047 题目描述 小明是一位科学家,他需要参加一场重要的国际科学大会,以展示自己的最新研究成果。 小明的起点是第一个车站,终点是最后一个车站。然而,途中的各个车站之间的道路状况、交通拥堵程度以…...

LAC拨号的L2TP VPN实验

目录 一.拓扑信息​ 二.需求分析 三.详细配置信息 1.基础信息配置 服务器&#xff1a; 2.建立PPPOE 3.建立L2TP隧道 4.安全策略 四.测试 一.拓扑信息​ 二.需求分析 一.基础信息配置&#xff08;IP和安全区域&#xff09; 二.建立PPPOE连接 是FW1和FW2之间的配置&#…...

天梯赛 PTAL2-009 抢红包

很简单的一道模拟题&#xff0c;使用map统计每个用户的钱数和红包数&#xff0c;最后在使用结构体存储&#xff0c;重载小于号&#xff0c;sort排序即可。 #include <bits/stdc.h> using namespace std; #define endl \n #define int long long typedef long long ll; c…...

信息学奥赛一本通 1831:【03NOIP提高组】神经网络 | 洛谷 P1038 [NOIP 2003 提高组] 神经网络

【题目链接】 ybt 1831&#xff1a;【03NOIP提高组】神经网络 洛谷 P1038 [NOIP 2003 提高组] 神经网络 【题目考点】 1. 图论&#xff1a;拓扑排序&#xff0c;有向无环图动规 【解题思路】 神经网络是一个有向无环图&#xff0c;输入层神经元是入度为0的顶点&#xff0c…...

如何切换node版本

在Linux或MacOS系统中&#xff0c;切换Node.js版本通常可以通过nvm&#xff08;Node Version Manager&#xff09;工具来实现。nvm允许你在不同的Node.js版本之间轻松切换&#xff0c;而无需重新安装或配置。 安装nvm 使用curl命令安装nvm&#xff08;适用于大多数Linux发行版…...

前端样式库推广——TailwindCss

官方网址&#xff1a; https://tailwindcss.com/docs/installation/using-vite 中文官方文档&#xff1a;https://www.tailwindcss.cn/ github地址&#xff1a;tailwindcss 正在使用tailwindcss的网站&#xff1a;https://tailwindcss.com/showcase 一看github&#xff0c;竟然…...

【前端 vue 或者麦克风,智能语音识别和播放功能】

前端 vue 或者麦克风&#xff0c;智能语音识别和播放功能 1. 终端安装 npm install recordrtc2.引入 import RecordRTC from recordrtc3.html&#xff08;根据自己业务更改&#xff09; <div class"Page"><el-form ref"mainFormRef" class&qu…...

Java基础编程练习第34题-正则表达式

在Java里&#xff0c;正则表达式是一种强大的文本处理工具&#xff0c;它可以用于字符串的搜索、替换、分割和校验等操作。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。Java通过java.util.regex包提供了对正则表达式的支持。 以下是正则表达式在Jav…...

Java+Html实现前后端客服聊天

文章目录 核心组件网络通信层事件调度层服务编排层 Spring实现客服聊天技术方案对比WebScoket建立连接用户上线实现指定用户私聊群聊离线 SpringBootWebSocketHtmljQuery实现客服聊天1. 目录结构2. 配置类3. 实体类、service、controller4. ChatWebSocketHandler消息处理5.前端…...

基于Spring Boot的冷链物流系统的设计与实现的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…...

《线程池:Linux平台编译线程池动态库发生的死锁问题》

关于如何编译动态库可以移步《Linux&#xff1a;动态库动态链接与静态库静态链接》-CSDN博客 我们写的线程池代码是闭源的&#xff0c;未来想提供给别人使用&#xff0c;只需要提供so库和头文件即可。 系统默认库文件路径为&#xff1a; usr/lib usr/loacl/lib 系统默认头文件…...

鸿蒙NEXT项目实战-百得知识库03

代码仓地址&#xff0c;大家记得点个star IbestKnowTeach: 百得知识库基于鸿蒙NEXT稳定版实现的一款企业级开发项目案例。 本案例涉及到多个鸿蒙相关技术知识点&#xff1a; 1、布局 2、配置文件 3、组件的封装和使用 4、路由的使用 5、请求响应拦截器的封装 6、位置服务 7、三…...

sql server数据迁移,springboot搭建开发环境遇到的问题及解决方案

最近搭建springboot项目开发环境&#xff0c;数据库连的是sql server&#xff0c;遇到许多问题在此记录一下。 1、sql server安装教程 参考&#xff1a;https://www.bilibili.com/opus/944736210624970769 2、sql server导出、导入数据库 参考&#xff1a;https://blog.csd…...

Sensodrive机器人力控关节模组SensoJoint在海洋垃圾清理机器人中的拓展应用

海洋污染已成为全球性的环境挑战&#xff0c;其中海底垃圾的清理尤为困难。据研究&#xff0c;海洋中约有2600万至6600万吨垃圾&#xff0c;超过90%沉积在海底。传统上&#xff0c;潜水员收集海底垃圾不仅成本高昂&#xff0c;而且充满风险。为解决这一问题&#xff0c;欧盟资助…...

matrix-breakout-2-morpheus 靶机----练习攻略 【仅获取shell】

【此练习仅做到反弹shell】 1.靶机下载地址 https://download.vulnhub.com/matrix-breakout/matrix-breakout-2-morpheus.ova 2. 打开靶机&#xff0c;kali使用nmap扫描同C段的主机 找到靶机ip 确保靶机和kali网卡均为NAT模式 先查看kali的ip nmap 192.168.182.1/24 …...

吴恩达机器学习笔记复盘(八)多元线性回归的梯度下降

简介 梯度下降是多元线性回归的主流优化方法&#xff0c;具有普适性和可扩展性&#xff0c;而标准方程法适用于特定场景。实际应用中需结合特征工程和参数调优提升模型性能。本篇不复盘参数调优。 1.多元线性回归模型 多元线性回归模型假设因变量 与多个自变量 之间存在线性…...

SAP-ABAP: 采购申请创建(PR)BAPI_PR_CREATE 技术指南-详解

BAPI_PR_CREATE 技术指南 用途&#xff1a;通过 RFC 接口创建 SAP 采购申请&#xff08;PR&#xff09;&#xff0c;支持自动化集成与批量处理。 一、功能概览 类别说明核心功能创建标准采购申请、预留转采购申请&#xff0c;支持多行项目及账户分配。集成场景与 MRP 系统、外…...

Python:单继承方法的重写

继承&#xff1a;让类和类之间转变为父子关系&#xff0c;子类默认继承父类的属性和方法 单继承&#xff1a; class Person:def eat(self):print("eat")def sing(self):print("sing") class Girl(Person):pass#占位符&#xff0c;代码里面类下面不写任何东…...

Cursor解锁Claude Max,助力AI编程新突破!

Cursor 最新推出的 Claude Max 模型&#xff0c;以其卓越的性能和创新的能力&#xff0c;正在重新定义我们对 AI 辅助编程的认知。这款搭载 Claude3.7 大脑的超级模型&#xff0c;不仅具备超强智能&#xff0c;还凭借一系列技术突破&#xff0c;向传统 AI 编程工具发起了挑战。…...

Datawhale coze-ai-assistant 笔记4

课程地址&#xff1a; ‍​‌​‬​​&#xfeff;‌​&#xfeff;​‬​​​​​⁠​​‬​‌​​​​⁠​​‍&#xfeff;​​​​​⁠​⁠​&#xfeff;​⁠​‬​第 6 章 应用 - 飞书云文档https://zxdwhda-share.feishu.cn/wiki/Gi9aw4EDTiXxcekUWebcEtmUnb4 应用 AI…...

【基于深度学习的验证码识别】---- part3数据加载、模型等API介绍(2)

四、模型 模型的定义 在机器学习和深度学习中&#xff0c;模型 可以定义为&#xff1a; 一个数学函数或算法&#xff0c;能够从输入数据中提取特征并生成输出。通过训练过程&#xff0c;模型能够学习数据中的规律&#xff08;如分类、回归、聚类等&#xff09;。训练完成后&…...

留 言 板

书单 作者&#xff1a;郦波 《五百年来王阳明》 《郦波评说曾国藩家训》《最是人间留不住》《一天一生》 作者&#xff1a;曾仕强 《论语的生活智慧》 《曾仕强详解道德经 道经》 作者&#xff1a; [何勇&#xff0c;陈晓峰著] 《Greenplum企业应用实战 》 作者 Mark G. Sobel…...

3.18练习

BUUCTF练习day2 [GXYCTF2019]Ping Ping Ping ping题有点熟悉的命令注入&#xff0c;使用 127.0.0.1;ls可以得到当前目录的文件名 cat一下flag.php&#xff0c;发现不行 过滤了空格&#xff0c;那我们有什么方法绕过呢 <(重定向符号)${IFS}$IFS$9%09(tab键) 试一试发现过…...