当前位置：首页 > news >正文

Social GAN（CVPR2018)

news 来源：原创 2025/8/28 10:43:51

文章目录

Abstract
Introduction
Related Work
- Human-Human Interaction
- RNNs for Sequence Prediction
- Generative Modeling
Method
- Problem Deﬁnition
- Generative Adversarial Networks
- Socially-Aware GAN
- Pooling Module
- Encouraging Diverse Sample Generation
Conclusion

paper

Abstract

理解人类的运动行为对于自主移动平台（如自动驾驶汽车和社交机器人）来说是至关重要的，如果它们要在以人为中心的环境中导航的话。这是具有挑战性的，因为人类的运动本质上是多模态的：考虑到人类运动路径的历史，有许多社会上合理的方式，人们可以在未来移动。我们通过结合序列预测和生成对抗网络的工具来解决这个问题：一个循环的序列到序列模型-服务于运动历史并预测未来行为，使用新的池化机制来聚合人们之间的信息。我们预测社会合理的未来，通过训练和普遍反对一个循环的鉴别器，并鼓励多样化的预测与一个新的多样性损失。通过对多个数据集的实验，我们证明了我们的方法在准确性、多样性、避免碰撞和计算复杂性方面优于先前的工作。

Introduction

预测行人的运动行为对于自动驾驶汽车或社交机器人等自动移动平台至关重要，因为它们将与人类共享相同的生态系统。人类可以有效地处理复杂的社会互动，这些机器应该也能做到这一点。为此目的，一个具体而重要的任务如下：给定观察到的行人的运动轨迹（例如过去的坐标3.2秒），预测所有可能的未来轨迹。
由于人类在拥挤场景中运动的固有特性，预测人类的行为是具有挑战性的：
人际关系：每个人的动作都取决于周围的人。在人群中穿行时，人类天生具有解读他人行为的能力。联合建模这些依赖关系是一个挑战
社会可以接受的：有些轨迹在物理上是可能的，但在社会上是不可接受的。行人受社会规范的约束，比如让行权或尊重个人空间。将它们形式化并非易事。
多模式的：考虑到部分历史，没有单一正确的未来预测。多种发展轨迹是可行的，也是社会可以接受的。
轨迹预测方面的开创性工作已经解决了上述一些挑战。人际关系方面已经通过基于手工特征的传统方法得到了详尽的解决[2,17,41,46]。最近，基于循环神经网络（RNNs）的数据驱动技术重新审视了社会可接受性[1,28,12,4]。最后，该问题的多模式方面已经在给定静态场景的路线选择背景下进行了研究（例如，在十字路口走哪条街道[28,24]）。Robicquet等人的研究表明，在拥挤的场景中，行人有多种导航风格，分别是温和的导航风格和激进的导航风格。因此，预测任务需要输出不同的可能结果。

虽然现有的方法在应对特定挑战方面取得了很大的进步，但它们有两个局限性。首先，在进行预测时，他们对每个人周围的当地社区进行建模。因此，它们没有能力以计算效率高的方式模拟场景中所有人之间的交互。其次，他们倾向于学习“平均行为”，因为常用的损失函数最小化了真实值和预测输出之间的欧氏距离。相反，我们的目标是学习多种“良好行为”，即多种社会可接受的轨迹。

为了解决以往工作的局限性，我们建议利用生成模型的最新进展。生成对抗网络（generative Adversarial Networks, GANs）是近年来为了克服难以处理的概率计算和行为推断等问题而发展起来的。虽然它们已经被用来产生照片般的信号，如图像[34]，但我们建议使用它们来生成多个社会可接受的轨迹，给定一个观察到的过去。一个网络（生成器）生成候选对象，另一个（鉴别器）评估它们。对抗性损失使我们的预测模型能够超越L2损失的限制，并有可能学习可以欺骗鉴别器的“好行为”的分布。在我们的工作中，这些行为被称为拥挤场景中社会接受的运动轨迹。

我们提出的GAN是一个RNN编码器-解码器生成器和一个基于RNN的编码器鉴别器，具有以下两个新颖之处：(i)我们引入了各种损失，这鼓励我们的GAN的生成网络扩展其分布并覆盖可能路径的空间，同时与观察到的输入一致。（ii）我们提出了一种新的池化机制，该机制学习了一个“全局”池化向量，该向量编码了场景中所有人的微妙线索。我们把我们的模型称为“社交GAN”。通过对几个公开可用的现实世界人群数据集的实验，我们展示了最先进的准确性和速度，并证明我们的模型有能力生成各种社会可接受的轨迹。

Related Work

预测人类行为的研究可以分为学习预测人与空间的相互作用或学习预测人与人的相互作用。前者学习特定场景的运动模式[3,9,18,21,24,33,49]。后者模拟场景的动态内容，即行人如何相互作用。我们的工作重点是后者：学习预测人与人之间的互动。我们讨论了该主题的现有工作，以及RNN用于序列预测和生成模型的相关工作。

Human-Human Interaction

人类行为在宏观模型中从群体角度进行了研究，在微观模型中从个体角度进行了研究（这是我们工作的重点）。微观模型的一个例子是Helbing和Molnar的社会力量模型，该模型用引导他们走向目标的吸引力和鼓励避免碰撞的排斥力来模拟行人的行为。在过去的几十年里，这种方法经常被重新审视[5,6,25,26,30,31,36,46]。经济学中流行的工具也被使用，如Antonini等人的离散选择框架。Treuille等人[42]使用连续统动力学，Wang等人[44]，Tay等人[41]使用高斯过程。这些函数也被用于研究平稳群[35,47]。然而，所有这些方法都使用基于相对距离和特定规则的手工制作的能量势。相比之下，在过去两年中，基于rnn的数据驱动方法已经被用来超越上述传统方法。

RNNs for Sequence Prediction

递归神经网络是一类丰富的动态模型，它扩展了前馈网络在不同领域的序列生成，如语音识别[7,8,15]、机器翻译[8]和图像字幕[20,43,45,39]。然而，它们缺乏高层次和时空结构[29]。已经有几次尝试使用多个网络来捕获复杂的相互作用[1,10,40]。Alahi等人使用一个社会池化层来模拟附近的行人。在本文的其余部分中，我们证明了使用多层单ceptron （MLP）和最大池化在计算上更有效，并且与[1]的社会池化方法一样或更好。Lee等人介绍了一种使用变分自编码器（VAE）进行轨迹预测的RNN编码器-解码器框架。然而，他们并没有模拟拥挤场景中人与人之间的互动。

Generative Modeling

像变分自编码器[23]这样的生成模型是通过最大化训练数据似然的下界来训练的。Goodfellow等人提出了一种替代方法，生成广告对抗网络（GANs），其中训练过程是生成模型和判别模型之间的极大极小博弈；这克服了近似难以处理的概率计算的困难。生成模型在超分辨率[27]、图像到图像转换[19]和图像合成[16,34,48]等任务中显示出有希望的结果，这些任务对于给定的输入具有多个可能的输出。然而，它们在序列生成问题（如自然语言处理）中的应用滞后，因为从这些生成的输出中采样以馈给鉴别器是一个不可微的操作。

Method

人类拥有一种直觉能力，能够在人群中穿行，并考虑到周围的人。我们计划我们的路径，牢记我们的目标，同时也考虑到周围的人的运动，如他们的运动方向，速度等。然而，在这种情况下，通常存在多种可能的选择。我们需要的模型不仅能够理解这些复杂的人类相互作用，而且能够捕捉到各种各样的选择。目前的方法侧重于预测平均未来轨迹，这将使与地面真实未来轨迹的L2距离最小化，而我们想要预测多个“好”轨迹。

Problem Deﬁnition

我们的目标是共同推理和预测一个场景中所有智能体的未来轨迹。我们假设我们接收到一个场景中所有人的轨迹作为输入，X = X1,X2，…， Xn，并预测未来的轨迹Y´= Y´1,Y´2，…所有的人同时在一起。从时间步长t =1，…开始，人i的输入轨迹定义为Xi =(xti, yti)。， tobs和未来轨迹（地面真相）可以类似地定义为Yi =(xti, yti)，从时间步长t = tobs +1，…, tpr。我们用i表示预测。

Generative Adversarial Networks

生成对抗网络（generative Adversarial Network， GAN）由两个相互对立训练的神经网络组成。两个对抗性训练模型是：捕获数据分布的生成模型G和估计样本来自训练数据而不是G的概率的判别原生模型D。生成器G将潜在变量z作为输入，并输出样本G(z)。鉴别器D以一个样本x作为输入，输出D(x)表示它是实数的概率。训练过程类似于二人最小最大博弈，目标函数如下：
GANs可以通过向生成器和鉴别器同时提供额外输入c来用于条件模型，从而产生G（z, c）和D(x, c)[13,32]。

Socially-Aware GAN

正如第1节所讨论的，轨迹预测是一个多模态问题。生成模型可以用时间序列数据来模拟可能的未来。我们利用这一见解设计了使用gan解决多模态问题的SGAN（见图2）。我们的模型由三个关键组件组成：生成器(G)、池化模块（PM）和鉴别器(D)。G基于编码器-解码器框架，我们通过PM将编码器和解码器的隐藏状态连接起来。G以Xi作为输入，输出预测轨迹yi。D输入包含输入轨迹Xi和未来预测Yi（或Yi）的整个序列，并将它们分类为“真实/虚假”。

系统概述。我们的模型由三个关键组件组成：生成器(G)、池化模块和鉴别器(D)。G将过去的轨迹Xi作为输入，并将人i的历史编码为Hit。池化模块将所有Htobs i作为输入，并为每个人输出一个池化向量Pi。解码器根据Htobs i和Pi生成未来的轨迹。D将Treal或Tfake作为输入，并将它们分类为社会可接受或不可接受（参见图3中的PM）。

Generator。我们首先使用单层MLP嵌入每个人的位置以获得固定长度的向量eti。这些嵌入被用作编码器在时刻t的LSTM单元的输入，引入以下递归式：

其中φ（·）为具有ReLU非线性的嵌入函数，Wee为嵌入权值。LSTM的权重（Wencoder）在一个场景中的所有人之间共享。

Na¨ıve每个人使用一个LSTM无法捕捉人与人之间的互动。编码器学习每个人的状态并存储他们的运动历史。然而，正如Alahi等人所表明的那样，我们需要一个紧凑的表示，它结合了来自不同编码器的信息，以有效地推断社会互动。在我们的方法中，我们通过池化模块（Pooling Module， PM）对人与人之间的交互进行建模。之后，我们汇总场景中所有人的隐藏状态，为每个人获得一个汇总的张量Pi。传统上，gan作为输入噪声并生成样本。我们的目标是创造与过去一致的未来情景。为了实现这一点，我们通过初始化解码器的隐藏状态来约束输出轨迹的生成：

其中γ（·）为具有ReLU非线性的多层感知器（MLP）， Wc为嵌入权值

关于轨迹预测，我们在两个重要方面偏离了先前的工作：先前的工作[1]使用隐藏状态来预测二元高斯分布的参数。然而，这给不可微情况下通过采样反向传播的训练过程带来了困难。我们通过直接预测坐标（x_i, x_i）来避免这种情况。•“社交”上下文通常作为输入提供给LSTM单元[1,28]。相反，我们只提供一次池上下文作为解码器的输入。这也为我们提供了在特定时间步长选择池的能力，与S-LSTM[1]相比，速度提高了16倍（见表2）。在如上所述初始化解码器状态后，我们可以得到如下预测：

其中φ（·）是一个具有ReLU非线性的嵌入函数，以Wed为嵌入权值。LSTM的权重用Wdecoder表示，γ是一个MLP。

Discriminator：鉴别器由一个单独的编码器组成。具体来说，它将Treal =[Xi，Yi]或Tfake =[Xi，Y´i]作为输入，并将它们分类为真假。我们对编码器的最后一个隐藏状态应用aMLP来获得分类分数。理想情况下，鉴别器将学习微妙的社会互动规则，并将不被社会接受的轨迹分类为“假”。
Loss：除了对抗损失，我们还在预测轨迹上应用L2损失，它测量生成的样本与实际地面真相的距离。

Pooling Module

为了跨多人进行联合推理，我们需要一种跨lstm共享信息的机制。然而，有几个挑战，一个方法应该解决：
场景中可变且（可能）大量的人。我们需要一种紧凑的表达方式，把所有人的信息结合起来。
分散的人际互动。当地的信息并不总是充分的。远处的行人可能会互相碰撞。因此，网络需要对全局配置进行建模。
社会池化[1]通过提出基于网格的池化方案解决了第一个问题。然而，这种手工制作的解决方案很慢，无法捕捉全局上下文。Qi et al.[37]表明，可以通过对输入点集合的变换元素应用学习的对称函数来实现上述性质。如图2所示，这可以通过通过MLP传递输入坐标，然后通过对称函数（我们使用Max-Pooling）来实现。集合向量Pi需要总结一个人做出决定所需的所有信息。由于我们使用相对坐标来实现平移不变性，因此我们将每个人相对于人i的相对位置增加到池化模块的输入。

Encouraging Diverse Sample Generation

轨迹预测是具有挑战性的，因为给定有限的过去历史，一个模型必须对多种可能的结果进行推理。到目前为止所描述的方法产生了很好的预测，但是这些预测试图在可能有多个输出的情况下产生“平均”预测。此外，我们发现输出对噪声的变化不是很敏感，并且产生了非常相似的预测。我们提出了一个多样性损失函数，鼓励网络产生不同的样本。对于每个场景，我们通过从N（0,1）中随机抽样z并选择L2意义上的“最佳”预测作为我们的预测，生成k个可能的输出预测。k is a hyperparameter.
通过只考虑最佳轨迹，这种损失鼓励网络对冲其赌注，并覆盖符合过去轨迹的输出空间。这种损失在结构上类似于最小/ N （MoN）损失[11]，但据我们所知，这还没有被用于gan的背景下，以鼓励生成样本的多样性。

Conclusion

在这项工作中，我们解决了人与人之间互动的建模问题，并共同预测场景中所有人的轨迹。我们提出了一种新的基于GAN的编码器-解码器框架，用于捕获未来预测问题的多模态。我们还提出了一种新的池化机制，使网络能够以纯数据驱动的方式学习社会规范。为了鼓励预测样本之间的多样性，我们提出了简单的多样性损失，它与池化层相结合，鼓励网络产生全局一致的、具有社会适应性的多样化样本。我们在几个必须遵守社会规范的复杂现实场景中展示了我们的方法的有效性。