当前位置：首页 > news >正文

【论文阅读】Hierarchical Group-Level Emotion Recognition

news 来源：原创 2025/9/25 16:16:54

【论文阅读】Hierarchical Group-Level Emotion Recognition

摘要
1.介绍
2.相关工作
3.方法
4.实验
5.分析

摘要

本篇博客参考IEEE于2021年收录的论文Hierarchical Group-Level Emotion Recognition，对其主要内容进行总结，以便加深理解和记忆

1.介绍

1）情绪识别应用

情绪识别可以用于各种应用：支持自闭症者[7]、检测人的抑郁[8]、图像记忆预测[74-75]、人机交互[9]。照片中的视觉特征在识别个体情绪方面发挥着重要作用[15-16]

2）GER

群体情绪识别的目标是将群体情绪分为三类，这是由心理学知识定义的[29]。研究人员提出不同的群体情绪识别方法，大多数是通过个人面部表情和场景特征提出的，这些特征同时描述了事件的类型（聚会、示威和葬礼）这主要是因为人的面部表情和场景特征与潜在的群体层面的情绪密切相关。

3）问题与发现

在实践中，同时进行三类分类，例如在上述方法中进行的分类，并不能达到高水平的准确性。正如先前的研究[1]、[18]、[19]、[32]、[34]、[40]所强调的那样，面部表情的使用在群体层面的情绪识别中是有效的。在对“正面”标签进行分类时，作者同意这一发现，因为特定的面部表情（例如微笑）可能包含在此类图像中。然而，作者质疑上述假设是否适用于标记为“中性”或“阴性”的图像。例如，参考数据集[49]中包括的图像，这些图像已被广泛用于群体层面的情绪识别，作者发现，在被标记为“中性”或“阴性”的图像中，个体的面部表情往往相似（图1）。这表明面部表情识别会导致“中性”和“阴性”之间的区分性能下降。

场景特征使作者能够表示图像中显示的事件类型。它们使系统能够有效地对面部表情代表较少辨别特征的图像进行分类。这表明，场景特征的使用不仅能有效区分“负面”和“中性”标签，还能对没有观察到特定面部表情的“正面”标签进行分类。

因此，作者认为最好通过分别分析图像中的面部表情和场景特征来解决群体情绪识别问题。

2.相关工作

1）假设可以通过聚集图像中个体的情绪识别来估计群体情绪：[1]、[18]、[19]、[32]、[34]、[40]、[73]

2）通过算术运算进行特征聚合以前的大多数方法都采用了算术聚合方案

平均[2]-[4]、[11]、[18]、[32]、[39]、[40]
中值[14]
多数投票[12]、[31]、[34]、[41]、[43]、[47]
Rassadin等人使用个人的平均面部表情以及他们的面部标志和场景特征构建了多个分类器，以获得组级情绪估计的结果[14]
方法[30]、[33]、[63]将个体的面部特征连接起来，并将其输入到完全连接（FC）层，以表示用于群体级情绪识别的面部特征

3）通过相关性分析进行特征聚合

不同的方法利用个体面部特征之间的相关性值来提高群体级情绪识别的性能。一些方法将利用RNN估计的人之间的面部表情相关性：

LSTM和GRU，纳入群体级情绪识别框架[13]、[17]、[19]、[20]、[35]、[37]、[44]、[62]
Bawa等人将LSTM应用于从图像中的多个面部区域收集的一组深层特征
方法[41]，[45]引入注意力层[48]来估计人与人之间面部表情的相关性

3.方法

1）方法概述

Ⅰ.第一个分类步骤：进行二分类，分出“阳性”标签和其他标签

首先通过使用人脸检测器来检测图像中的人脸[24]
为了区分哪些人脸是输入图像中的主要主体，作者利用CASNet框架估计了表征视觉注意力的显著性图[25]
使用估计的显著性图，作者通过对一组检测到的面部区域进行光谱聚类[55]来确定图像中对群体级情绪有贡献的主要主体
将估计为主要受试者的人脸图像输入卷积神经网络（CNNs），对其进行微调，以输出用于面部表情分类的结果
使用级联注意力网络聚合从细胞神经网络中提取的深层特征[41]。这使作者能够表示个人面部特征之间的相关性。使用与级联注意力网络聚合的面部特征，作者对包括特定面部表情和其他表情在内的“积极”标签进行二元分类。

Ⅱ.第二关分类步骤：对第一分类的结果进行三类分类，这将在图像的场景特征方面具有判别性

使用用局部流估计的对象语义信息和用全局流估计的整个图像的特征来表示场景特征
在局部流中，作者首先通过使用对象检测器来检测图像中的对象[53]。然后，作者对一组检测到的对象图像和相应的对象标签进行偏最小二乘（PLS）分析。

PLS分析是一种统计方法，用于估计高维特征到子空间的投影，在子空间中，嵌入特征中的潜在类别（即群体级情绪）可以被有效地区分。因此，在PLS分析结果的帮助下，它使作者能够通过对一组检测到的对象进行光谱聚类来估计哪些类型的对象对群体层面的情绪的区分是有区别的。作者将这些估计的对象图像输入到神经网络中，对神经网络进行微调以获得组级情感分类的输出结果，从而获得深层特征。

与第一分类阶段类似，作者使用级联注意力网络聚合提取的深度特征。这使得能够表征图像中对象的出现频率的共现程度。
在全局流中，作者将整个图像输入另一个CNN，该CNN经过微调以获得组级情感分类的输出结果，从而获得全局特征。
使用从局部和全局流计算的结果，作者最终将其分类为“阳性”、“中性”和“阴性”三类标签

2）第一阶段：使用面部表情分类

人脸检测和对齐

首先利用多任务级联卷积网络检测输入图像D中的人脸区域[24]。然后，作者按照[45]、[57]中的方法对检测到的人脸之间的面部姿态（平移和旋转）变化进行归一化，因为如[56]中所述，这种变化会降低面部表情识别的准确性。

作者将对齐的N个面区域定义为 $I^{align}＝\{I^{align}_1，…，I^{align}_N\}$ 。

主要受试者评估

视觉注意力权重计算：根据先前的研究[31]，[40]，主要受试者的面部表情对图像中的群体级情绪有很大贡献。此外，[28]的作者报告说，照片中主要受试者的脸比背景中的人的脸更容易吸引视觉注意力。这些发现表明，视觉注意力的使用鼓励系统提高群体级情绪识别的性能。

为了估计视觉注意力，作者使用了CASNet[25]，这是一种深度架构，通过在图像中加入情感刺激来推断视觉注意力（即显著性图）。作者将估计的显著性图定义为η，并将图像中位置（x，y）处的η值定义为 $η （ x ， y ）$ 。

使用 $η （ x ， y ）$ ，作者为 $I^{align}$ 提供权重，其定义为 $w^{vis}=（w^{vis}_1，…，w^{vis}_N）$ 。特别地，作者将 $w^{vis}_N$ 计算为：
$w^{vis}_N = \frac 1 W \sum_{(x,y)∈F_N}η(x, y),$
其中Fn表示第n个面部图像Ialign的一组像素位置。归一化系数W计算为： $W=\sum_n \sum_{（x，y）∈Fn}η（x，y）$ 。

使用视觉注意力权重的光谱聚类

为了估计主要受试者，作者使用视觉注意力权重 $w^{vis}$ 对 $I^{align}$ 进行光谱聚类。在这里，作者用简短的数学推导来描述这个过程的细节。有关光谱聚类的更多详细信息，请参阅[69]。

首先构造了一个全连通相似图， $G=（V，E）∈R^{N×N}，其中V=\{v_1，…，v_N\}$ 表示一组节点，其中每个节点表示 $I^{align}$ 中的面部图像。此外， $E=\{e_{（i，j）}\}，i=1，...。，N、 j＝1，...，N$ 表示由视觉注意力权重 $w^{vis}$ 加权的邻接矩阵。具体来说，作者计算边权重 $e_{（i，j）}$ 为：
$e_{(i,j)} = |w^{vis}_i − w^{vis}_j |$
使用E，作者构造度矩阵D为:
$\{D_{(i,j)}\}_{i,j=1,...,N} =\{δ_{(i,j)} \sum_ke_{(i,k)}\}_{i,j=1,...,N}$
其中δ（i，j）表示Kronecker delta函数。归一化图拉普拉斯矩阵L计算为:
$D^{− \frac 1 2} (D − E)D^{− \frac 1 2}$
略…

处理一个所有人都是主体的情况：

在这种情况下，光谱聚类将强制将人区分为主要主体和背景中的人。

为了解决这个问题，作者纳入了一个标准，以确定是否所有人都是主要主体。当一张照片包括主要拍摄对象和背景人物时，视觉显著性的值会随着面部图像的变化而变化。相反，当所有人都是主要受试者时，所有面部图像的视觉显著性值将同样显著。这表明，视觉注意力的变化将是确定是否所有人都是主要受试者的合适线索。

为了统计检查图像中每个人脸的视觉注意力变化的程度，作者使用数据集中的图像建立了视觉注意力权重 $w^{vis}$ 的方差累积直方图，定义为CumulHist（wvis）。通过分析CumulHist（wvis），作者确定当输入图像的方差Var（wvis）小于从CumulHist（wvis）的累积相对频率得出的特定阈值th时，输入图像中的所有人都是主要对象。基于初步实验，作者根据经验确定th为： $th=0.2 max CumulHist（w^{vis}）$ 。

区分：光谱聚类为每个顶点vn（即第n个面部图像）提供了一个标签ψn∈{main，others}，指示vn是否是主要主体（main）（others）

面部表情特征的提取

作者使用CNN从I（主要人脸）中提取面部特征。使用VGG16模型[23]，该模型是用VGGFace数据集[22]预先训练的。（VGGFace是一个由2622个身份的2.6M图像组成的大规模人脸数据集。）由于VGG16模型是为了人脸识别而构建的，作者使用真实世界情感人脸数据库（RAF-DB）[21]和群体情感数据库2.0（GAF2）[49]对其进行微调，以适应面部表情识别任务。

（RAF-DB数据集[21]是最新的面部表情识别数据集之一，包括在外观、姿势和年龄方面有很大变化的面部图像。GAF2数据集[49]是一个著名的用于群体级情绪识别任务的数据集。）

RAF-DB数据集包含七个面部表情类别（标签），用于识别个人的面部表情；因此，很难将这些标签直接用于组级情绪识别任务。为了解决这一问题，作者重新定义了这些面部表情标签，使其适用于小组级的情绪识别任务，就像之前的方法[33]、[43]所做的那样：（1）“幸福”和“惊喜”→ “积极”、（2）“愤怒”、“厌恶”、“恐惧”和“悲伤”→ “否定”，以及（3）其他→ “中性。”

Ⅰ.微调：作者接下来描述系统中微调过程的细节。作者遵循[27]中提出的微调程序。作者首先从原始VGG16模型中移除最后两个FC层。作者将最后两个FC层分别称为FC7和FC8。作者添加了一个由256个节点组成的具有整流线性单元（ReLU）的FC层作为FC7，而不是这些删除的FC层。然后，作者将最终的FC层（即分类层）堆叠为FC8，其中softmax激活单元由与第一阶段分类类别（“阳性”和“非阳性”）相对应的2个节点组成。

作者首先使用RAF-DB数据集训练这个微调的VGG16模型。然后，作者使用GAF2数据集来训练这个经过微调的VGG16模型。根据之前的一项研究，这种两阶段微调策略对于提高群体级情绪识别的性能是有效的[65]。

Ⅱ.深层特征提取：作者将I（主要人脸）中的每个人脸图像输入到这个微调的VGG16模型中。对于每个图像，作者在这个微调的VGG16模型中从FC7中提取256维深度特征。作者将这些提取的深度特征的集合定义为 $f^{face}=\{f^{face1}，…，f^{faceM}\}$ ，其中 $f^{faceM}$ 表示第M个面部图像的深度特征。

使用级联注意力网络的特征聚合

作者聚合了所使用的多个深层特征以及它们之间的相关性。为此，作者使用了级联注意力网络（CAN）[41]

Ⅰ.自注意力计算

Ⅱ.上下文注意力计算

二分类

作者使用面部特征对输入图像进行二值分类。作者首先使用CAN来聚合个人的面部特征。根据之前的一项研究[58]，个体的情绪可能会受到同一群体中附近人的情绪的影响。这表明，分析面部表情的相关性将在估计潜在的群体层面情绪方面发挥重要作用。分类为“非阳性”的图像将在下一个分类器中根据场景特征进行评估

③第二阶段：使用场景特征分类

作者描述了使用场景特征的第二分类的细节。在所提出的方法中，场景特征由局部对象流和全局流表示。

物体检测

作者首先通过利用VG数据集[59]预训练的Faster R-CNN[53]，在第一分类阶段检测被分类为“非阳性”的输入图像D≤中的对象区域。（VG数据集是一个包含108K图像的大规模数据集，这些图像用对象位置和相应的对象标签（例如，“人”和“车”）进行了注释。）

判别对象的估计

作者估计有助于描述图像中群体层面情绪的对象。作者对一组成对的对象区域和相应的对象标签进行偏最小二乘（PLS）分析。下面，作者描述了如何通过PLS分析的简短数学推导来估计判别对象的细节。有关PLS分析的数学建模的更多详细信息，请参阅[70]。

Ⅰ.对象标签出现频率的构建：作者将数据集中的每个样本（图像）表示为对象标签的出现频率（即直方图）。使用这种表示的原因是，作者预计对象标签的出现频率将显示出有偏见的特征，这取决于标记为“阳性”、“中性”和“阴性”的图像。

Ⅱ. PLS分析：作者对H和相应的标签集Y={y1，…，Yα}进行PLS分析，其中每个标签ya取组级情绪标签“积极”、“中性”或“消极”中的任何一个。这种PLS分析使作者能够获得哪些对象标签更具鉴别性，以区分组级情绪。

Ⅲ.对象语义权重计算：作者为 $I^{obj}$ 提供权重，定义为： $w^{pls}=（w^{pls}_1，…，w^{pls}_B）$ 。

Ⅳ.使用对象语义权重的光谱聚类：为了估计群体级情感的判别对象，作者使用 $w^{pls}$ 对 $I^{obj}$ 进行光谱聚类。

局部场景特征提取

作者使用CNN从I(obj，dis)中提取局部场景特征

Ⅰ.微调：作者使用了一个VGG16模型，该模型是用ImageNet数据集预先训练的[26]。作者通过使用从数据集中包括的图像中检测到的对象图像来对其进行微调，以适应组级别的情绪识别任务。

Ⅱ.深层特征提取：作者将每个对象图像I(obj，dis)输入到这个微调的VGG16模型中。对于每个图像，作者在这个微调的VGG16模型中从FC7中提取256维深度特征。

使用级联注意力网络聚合对象特征

作者可以假设图像中对象标签的出现频率存在共现关系。例如，对象标签“flag”和“sign”可能同时出现在标记为“Negative”的图像中。为了利用对象标签的这种共存，作者使用了基于CAN的注意力网络

全局场景特征提取

作者使用CNN提取单个全局场景特征，该特征表征在整个图像中观察到的事件类型。

Ⅰ.微调：作者使用一个VGG16模型，该模型是用ImageNet数据集预先训练的。作者通过使用GAF2数据集的整体图像对其进行微调，以适应组级情绪识别任务

Ⅱ.深层特征提取：作者将整个图像输入到这个经过微调的VGG16模型中。然后，作者在这个微调的VGG16模型中从FC7中提取256维深度特征。

最终分类

作者使用局部和全局特征进行最后的群体级情绪识别。作者将 $f^{(obj，att)}和f ^{glo}$ 连接起来，然后将其馈送到由三个节点组成的FC层中，这三个节点对应于具有softmax激活函数的组级情感标签。

4.实验

1）实施细则

随机梯度下降（SGD）优化器[66]，学习率为0.001，批量大小为10。数据增强（随机水平翻转，±20°旋转，通道偏移±5°），20轮训练

验在搭载英特尔酷睿i9-7900X 3.3 GHz和GeForce GTX 1080Ti的Windows PC

2）GAF2[49]和群体情感数据库3.0（GAF3）数据集[50]

3）消融实验

层次分类方法
视觉注意力和对象语义信息的结合

4）定性评价

主要受试者评估结果
判别对象估计结果

5.分析

作者认为在使用场景特征的第二阶段分类中，面部特征的使用会阻碍准确估计
复杂度分析
局限性：探索一种提高主体估计方案性能的方法
未来的工作：群体凝聚力[51]，[52]是衡量群体成员之间联系的指标，在识别群体层面的情绪方面是有效的[32]，[67]。作者将研究如何通过将群体凝聚力纳入作者的群体级情绪识别框架来提高分类性能。

【论文阅读】Hierarchical Group-Level Emotion Recognition

摘要

1.介绍

2.相关工作

3.方法

4.实验

5.分析

相关文章：