当前位置: 首页 > news >正文

多模态论文笔记——TECO

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细解读多模态论文TECO(Temporally Consistent Transformer),即时间一致变换器,是一种用于视频生成的创新模型,旨在解决现有视频生成算法在处理长时依赖关系和时间一致性方面的不足

在这里插入图片描述

文章目录

    • 论文
    • 摘要
    • 1. 引言
    • 2. 预备知识
      • 2.1 VQ-GAN
      • 2.2 MaskGit
    • 3. TECO
      • 3.1 架构概述
        • 编码器
        • 时间变换器
        • 解码器
        • 空间MaskGit
        • 训练目标
      • 3.2 DropLoss
    • 4. 实验
      • 4.1 数据集
      • 4.2 基线模型
      • 4.3 实验设置
      • 训练
      • 评估
      • 4.4 基准测试结果
      • 4.5 消融实验
      • 4.6 进一步见解
    • 5. 讨论
  • 热门专栏
    • 机器学习
    • 深度学习

论文

论文名:Temporally Consistent Transformers for Video Generation
论文链接:https://arxiv.org/pdf/2210.02396
项目地址:https://wilson1yan.github.io/teco

摘要

在视频生成领域,精确捕捉空间和时间依赖关系是生成高质量视频的关键,但现有算法存在显著缺陷,本文提出创新解决方案,具体内容如下:

  1. 现有算法问题:当前算法虽能在短时间内准确预测,却普遍存在时间不一致问题。当生成内容暂时移出视野后再次出现时,模型会生成与之前不同的内容,这严重影响视频质量。
  2. 缺乏评估基准:目前,针对具有长时依赖关系的视频生成任务,缺少成熟、可靠的评估基准,阻碍了该领域的发展。
  3. 构建挑战性数据集:为解决评估难题,作者精心构建了3个具有长程依赖关系的视频数据集,为评估模型在复杂环境下处理长时依赖关系的能力提供了有效工具。
  4. 评估现有模型:利用构建的数据集,对当前的视频生成模型进行全面评估,清晰地观察到这些模型在时间一致性方面存在的局限性,为后续改进和创新提供了方向。
  5. 提出TECO模型:为改善现有问题,引入了时间一致变换器(TECO)。这是一种新型生成模型,它通过压缩输入序列、应用时间变换器以及利用空间MaskGit扩展等操作,在提高视频长期一致性的同时,还能减少采样时间,在众多评估指标上超越了现有的视频生成模型。
  6. 成果展示:文章提供了TECO模型在多个数据集上的视频预测样本,同时展示了部分样本对应的3D可视化效果。

1. 引言

最近,在复杂视频数据上生成高保真且多样样本方面取得巨大进展,主要得益于计算资源增加和高效大容量神经架构。然而,这些进展大多集中在生成短视频上。基于短上下文窗口的模型虽能以滑动窗口方式生成长视频,但缺乏时间一致性,无法在相机平移回原位置时生成相同内容,对未观察位置的预测也难以与新想象场景保持一致。
已有研究针对长期依赖关系建模,包括时间层次结构、带有逐帧插值的跨步采样等技术,还有在稀疏帧集上训练或通过压缩表示对视频建模的方法,详细内容可参考附录L。
但是当前的视频生成方法在处理长程依赖数据集和评估时间一致性方面存在的问题,具体如下:

  1. 长程依赖数据集处理难题:众多视频生成方法在扩展到具有大量长程依赖关系的数据集时面临困境。例如,Clockwork-VAE受递归影响,训练时间长且难以适应复杂数据;基于潜在空间的变换器方法因注意力机制的二次复杂度,处理长视频时扩展性不佳;在标记子集上训练的方法受截断时间反向传播或简单时间操作的制约。
  2. 时间一致性评估缺失:目前缺少能准确评估视频生成方法时间一致性的基准。以往工作,有的聚焦于仅靠短期依赖就能精准预测的长视频生成,有的依赖对图像保真度敏感但无法捕捉长程时间依赖的指标,如FVD。

在本文中,作者引入了一组新颖的长时视频生成基准以及相应的评估指标,以更好地捕捉时间一致性。此外,还提出了时间一致视频变换器(TECO),这是一种向量量化的潜在动力学模型,它使用高效的变换器在紧凑的表示空间中有效地对长期依赖关系进行建模。主要贡献总结如下:

  • 提出了3个具有长程依赖关系的视频数据集及相关指标,用于更好地评估视频预测中的时间一致性。数据集包括DMLab、我的世界和Habitat中的3D场景生成。
  • 在这些数据集上对最先进的视频生成模型进行基准测试,并分析每个模型学习长时依赖关系的能力
  • 引入了TECO,这是一种高效且可扩展的视频生成模型,它学习压缩表示,以便进行高效的训练和生成。作者展示了TECO在各种具有挑战性的视频预测任务上具有强大的性能,并且能够利用长期时间上下文生成高质量且一致的视频,同时保持快速的采样速度

2. 预备知识

2.1 VQ-GAN

VQ-GAN是一种自动编码器,它学习将数据压缩为离散的潜在表示,由编码器 E E E、解码器 G G G、码本 C C C和判别器 D D D组成。过程如下:

  • 给定一个图像 x ∈ R H × W × 3 x \in \mathbb{R}^{H×W×3} xRH×W×3,编码器 E E E x x x映射到其潜在表示 h ∈ R H ′ × W ′ × D h \in \mathbb{R}^{H'×W'×D} hRH×W×D
  • 通过在由嵌入 C = { e i } i = 1 K C = \{e_{i}\}_{i = 1}^{K} C={ei}i=1K组成的码本中进行最近邻查找对其进行量化,生成 z ∈ R H ′ × W ′ × D z \in \mathbb{R}^{H'×W'×D} zRH×W×D
  • z z z通过解码器 G G G进行重构得到 x ^ \hat{x} x^

在这个过程中,直通估计器(Bengio,2013)用于在量化步骤中保持梯度流动。码本优化以下损失:

L V Q = ∥ s g ( h ) − e ∥ 2 2 + β ∥ h − s g ( e ) ∥ 2 2 ( 1 ) \mathcal{L}_{VQ}=\| sg(h)-e\| _{2}^{2}+\beta\| h-sg(e)\| _{2}^{2} (1) LVQ=sg(h)e22+βhsg(e)221

其中:

  • L V Q \mathcal{L}_{VQ} LVQ:VQ - GAN中码本优化的矢量量化损失,用于衡量量化过程误差。
  • h h h:编码器输出的潜在表示。
  • e e e:码本 c c c中与 h h h最接近的嵌入向量。
  • s g ( ⋅ ) sg(\cdot) sg():停止梯度操作符,保证量化过程中梯度正确流动。
  • β \beta β:超参数,常取0.25,控制两部分损失的相对权重。

公式由两部分组成, ∥ s g ( h ) − e ∥ 2 2 \| sg(h)-e\| _{2}^{2} sg(h)e22关注编码误差, β ∥ h − s g ( e ) ∥ 2 2 \beta\| h - sg(e)\| _{2}^{2} βhsg(e)22关注解码误差。

其中 β = 0.25 \beta = 0.25 β=0.25是一个超参数, e e e是从码本 C C C中得到的最近邻嵌入。为了进行重构,VQ-GAN用感知损失(Zhang等人,2012) L L P I P S \mathcal{L}_{LPIPS} LLPIPS代替了原来的 ℓ 2 \ell_{2} 2损失。最后,为了鼓励生成更高保真度的样本,训练补丁级判别器 D D D 对真实图像和重构图像进行分类,损失为:

L G A N = l o g D ( x ) + l o g ( 1 − D ( x ^ ) ) ( 2 ) \mathcal{L}_{GAN}=log D(x)+log (1-D(\hat{x})) (2) LGAN=logD(x)+log(1D(x^))2

其中:

  • L G A N \mathcal{L}_{GAN} LGAN:生成对抗网络(GAN)的损失函数,用于训练判别器以区分真实图像和生成图像。
  • D D D:判别器,是一个神经网络,用于判断输入图像是真实图像的概率,输出值范围在 [ 0 , 1 ] [0, 1] [0,1]之间。
  • x x x:真实图像,来自原始的训练数据集。
  • x ^ \hat{x} x^:生成的(重构的)图像,由VQ - GAN的解码器生成。

该公式通过使 D ( x ) D(x) D(x)趋近于1(判别真实图像), D ( x ^ ) D(\hat{x}) D(x^)趋近于0(判别生成图像)来优化判别器。

总体而言,VQ-GAN优化以下损失:
min ⁡ E , G , C max ⁡ D L L P I P S + L V Q + λ L G A N ( 3 ) \min_{E, G, C} \max_{D} \mathcal{L}_{LPIPS}+\mathcal{L}_{VQ}+\lambda \mathcal{L}_{GAN} (3) E,G,CminDmaxLLPIPS+LVQ+λLGAN3

  • L L P I P S \mathcal{L}_{LPIPS} LLPIPS:基于学习的感知图像块相似性损失(Learned Perceptual Image Patch Similarity)。它是一种感知损失,用于衡量生成图像与真实图像在感知上的差异,更符合人类对图像相似性的主观判断。
  • L V Q \mathcal{L}_{VQ} LVQ:矢量量化损失,用于优化码本。它包含两部分,主要衡量编码器输出的潜在表示与码本中最近邻嵌入向量之间的编码和解码误差,公式为 L V Q = ∥ s g ( h ) − e ∥ 2 2 + β ∥ h − s g ( e ) ∥ 2 2 \mathcal{L}_{VQ}=\| sg(h)-e\| _{2}^{2}+\beta\| h - sg(e)\| _{2}^{2} LVQ=sg(h)e22+βhsg(e)22
  • L G A N \mathcal{L}_{GAN} LGAN:生成对抗网络的损失,用于训练判别器区分真实图像和生成图像,公式为 L G A N = log ⁡ D ( x ) + log ⁡ ( 1 − D ( x ^ ) ) \mathcal{L}_{GAN}=\log D(x)+\log (1 - D(\hat{x})) LGAN=logD(x)+log(1D(x^))
  • λ \lambda λ:自适应权重,用于平衡 L G A N \mathcal{L}_{GAN} LGAN与其他损失项的相对重要性,其计算公式为 λ = ∥ ∇ G L L L P I P S ∥ 2 ∥ ∇ G L L G A N ∥ 2 + δ \lambda=\frac{\left\|\nabla_{G_{L}} L_{LPIPS}\right\|_{2}}{\left\|\nabla_{G_{L}} L_{GAN}\right\|_{2}+\delta} λ=GLLGAN2+δGLLLPIPS2,其中 G L G_{L} GL是解码器的最后一层, δ \delta δ是一个小的常数(如 δ = 1 0 − 6 \delta = 10^{-6} δ=106)。

其中 λ = ∥ ∇ G L L L P I P S ∥ 2 ∥ ∇ G L L G A N ∥ 2 + δ \lambda=\frac{\left\|\nabla_{G_{L}} \mathcal{L}_{LPIPS}\right\|_{2}}{\left\|\nabla_{G_{L}} \mathcal{L}_{GAN}\right\|_{2}+\delta} λ=GLLGAN2+δGLLLPIPS2是一个自适应权重, G L G_{L} GL是解码器的最后一层, δ = 1 0 − 6 \delta = 10^{-6} δ=106 L L P I P S \mathcal{L}_{LPIPS} LLPIPS是Zhang等人(2012)中描述的相同距离度量。

VQ其实就是向量量化的意思,在之前的系列文章中,我们介绍了VAE的向量量化版本:多模态论文笔记——VQ-VAE和VQ-VAE-2

2.2 MaskGit

MaskGit 对离散标记(如由VQ-GAN生成的标记)的分布进行建模。它通过在训练期间使用掩码标记预测目标,以一小部分采样成本生成与自回归模型具有竞争力的样本质量的图像

形式上,将 z ∈ Z H × W z \in \mathbb{Z}^{H×W} zZH×W表示为代表图像的离散潜在标记。对于每个训练步骤,均匀采样 t ∈ [ 0 , 1 ) t \in [0, 1) t[0,1),并随机生成一个掩码 m ∈ { 0 , 1 } H × W m \in \{0, 1\}^{H×W} m{0,1}H×W,其中有 N = ⌈ γ H W ⌉ N=\lceil\gamma H W\rceil N=γHW个被掩码的值,这里 γ = cos ⁡ ( π 2 t ) \gamma=\cos (\frac{\pi}{2} t) γ=cos(2πt)。然后,MaskGit通过以下目标学习预测被掩码的标记:
L m a s k = − E z ∈ D [ log ⁡ p ( z ∣ z ⊙ m ) ] \mathcal{L}_{mask }=-\mathbb{E}_{z \in \mathcal{D}}[\log p(z | z \odot m)] Lmask=EzD[logp(zzm)]
推理期间,由于MaskGit已被训练以对任何一组无条件和条件概率进行建模,我们可以在每次采样迭代中对任何标记子集进行采样。Chang等人(2022)引入了一种基于置信度的采样机制,而其他工作(Lee等人,2022)提出了一种迭代采样和修正方法。

3. TECO

作者提出时间一致视频变换器(TECO),这是一种视频生成模型,能够更有效地扩展到对更长时间范围的视频进行训练

3.1 架构概述

在这里插入图片描述

图3. TECO的架构设计。(a) 以往基于VQ编码的视频生成模型,会对所有编码采用单一的时空变换器。由于注意力机制具有二次方复杂度,在扩展到长序列时,这种方法的计算成本过高。(b) 我们提出一种新颖且高效的架构,先在空间上进行大幅下采样,再将数据输入到时间变换器中,然后通过逐帧单独应用的空间MaskGit恢复到原始空间尺寸。在图中,变换器模块展示了注意力连接的数量。在300帧的训练序列上,与现有模型相比,TECO的效率提升了几个数量级,使得在给定的计算资源下能够使用更大的模型。

作者提出的框架(如图3所示)含一系列视频帧 x 1 : T x_{1:T} x1:T,主要创新是设计出能扩展到长序列的高效架构。

  • 先前方法:先前先进方法在VQ码上训练单一时空变换器对每个码进行建模,处理含数万个标记的序列成本极高,但能学习高度多模态分布且在复杂视频上扩展性好。
  • TECO架构目标:保留高容量扩展特性,同时使训练和推理效率提升几个数量级。

在以下部分,将阐述模型各组件的设计动机,并给出一些具体的设计选择,以确保效率和可扩展性。TECO由四个组件(公式 5 )组成:

  • 编码器 z t = E ( x t , x t − 1 ) z_{t}=E(x_{t}, x_{t - 1}) zt=E(xt,xt1)
  • 时间变换器 h t = H ( z ≤ t ) h_{t}=H(z_{\leq t}) ht=H(zt)
  • 空间MaskGit p ( z t ∣ h t − 1 ) p(z_{t} | h_{t - 1}) p(ztht1)
  • 解码器 p ( x t ∣ z t , h t − 1 ) p(x_{t} | z_{t}, h_{t - 1}) p(xtzt,ht1)
编码器

利用视频数据中的时空冗余实现压缩表示。为此,作者提出学习一个CNN编码器 z t = E ( x t , x t − 1 ) z_{t}=E(x_{t}, x_{t - 1}) zt=E(xt,xt1),它通过在通道维度连接前一帧 x t − 1 x_{t - 1} xt1对当前帧 x t x_{t} xt进行编码,然后使用码本 c c c对输出进行量化以生成 z t z_{t} zt。作者还做了如下的优化:

  • 在每个时间步应用公式(1)中定义的VQ损失
  • 对码本和嵌入进行 ℓ 2 \ell_{2} 2归一化,以鼓励更多地使用码本(Yu等人,2021)。
  • 第一帧与零连接,并且不对 z 1 z_{1} z1进行量化以防止信息丢失。
时间变换器

与连续潜在表示相比,压缩的离散潜在表示损失更大,并且往往需要更高的空间分辨率。因此,在对时间信息进行建模之前,先应用一个跨步卷积对每个离散潜在 z t z_{t} zt进行下采样,在视觉上更简单的数据集可以进行更多的下采样,而视觉上复杂的数据集则需要较少的下采样。之后,再学习一个大型变换器对时间依赖关系进行建模,然后应用转置卷积将表示上采样回 z t z_{t} zt的原始分辨率。总之,使用以下架构:
h t = H ( z < t ) = ConvT ( Transformer ( Conv ( z < t ) ) ) h_{t}=H\left(z_{<t}\right)=\text{ConvT}\left(\text{Transformer}\left(\text{Conv}\left(z_{<t}\right)\right)\right) ht=H(z<t)=ConvT(Transformer(Conv(z<t)))

解码器

解码器是一个上采样CNN,用于重建 x ^ t = D ( z t , h t ) \hat{x}_{t}=D(z_{t}, h_{t}) x^t=D(zt,ht),其中 z t z_{t} zt可以解释为时间步 t t t的后验, h t h_{t} ht是时间变换器的输出,它汇总了先前时间步的信息。 z t z_{t} zt h t h_{t} ht在通道维度上连接后输入到解码器中。解码器与编码器一起优化以下交叉熵重建损失:
L r e c o n = − 1 T ∑ t = 1 T log ⁡ p ( x t ∣ z t , h t ) \mathcal{L}_{recon }=-\frac{1}{T} \sum_{t = 1}^{T} \log p\left(x_{t} | z_{t}, h_{t}\right) Lrecon=T1t=1Tlogp(xtzt,ht)
鼓励 z t z_{t} zt特征编码帧之间的相对信息,因为时间变换器输出 h t h_{t} ht随时间聚合信息,从而学习更压缩的代码,以便在更长的序列上进行高效建模

空间MaskGit

最后,使用MaskGit对先验 p ( z t ∣ h t ) p(z_{t} | h_{t}) p(ztht)进行建模。作者表明,与自回归先验相比,使用MaskGit先验不仅可以实现更快的采样,还能提高采样质量。在每次训练迭代中,我们按照先前的工作对随机掩码 m t m_{t} mt进行采样,并优化
L p r i o r = − 1 T ∑ t = 1 T log ⁡ p ( z t ∣ z t ⊙ m t ) \mathcal{L}_{prior }=-\frac{1}{T} \sum_{t = 1}^{T} \log p\left(z_{t} | z_{t} \odot m_{t}\right) Lprior=T1t=1Tlogp(ztztmt)
其中 h t h_{t} ht与被掩码的 z t z_{t} zt在通道维度上连接,以预测被掩码的标记。在生成过程中,作者遵循Lee等人(2022)的方法,即最初每次以 8 个为一组生成每一帧,然后经过两轮修正,每次重新生成一半的标记

训练目标

最终目标如下:
L T E C O = L V Q + L r e c o n + L p r i o r \mathcal{L}_{TECO }=\mathcal{L}_{VQ}+\mathcal{L}_{recon }+\mathcal{L}_{prior } LTECO=LVQ+Lrecon+Lprior

3.2 DropLoss

在这里插入图片描述

图4. DropLoss通过在每次训练迭代中仅对随机选择的时间索引子集计算损失,提高了长序列训练的可扩展性。对于TECO,我们无需为被随机剔除的时间步计算解码器和MaskGit相关内容。

作者提出DropLoss,这是一种简单的技巧,用于实现更具可扩展性和高效的训练(图4)。由于其架构设计,TECO可以分为两个组件
(1)学习时间表示,由编码器和时间变换器组成;
(2)预测未来帧,由动力学先验和解码器组成。

可以通过随机丢弃不进行解码的时间步来提高训练效率,这些时间步从重建损失中省略。例如,给定一个有 T T T帧的视频,我们计算所有 t ∈ { 1 , … , T } t \in \{1, \ldots, T\} t{1,,T} h t h_{t} ht,然后仅对10%的索引计算损失 L p r i o r L_{prior} Lprior L r e c o n L_{recon} Lrecon
由于每次迭代都随机选择索引,模型仍然需要学习准确预测所有时间步。这显著降低了训练成本,因为解码器和动力学先验需要大量计算。DropLoss适用于广泛的架构以及视频预测之外的任务。

4. 实验

4.1 数据集

为衡量视频预测长程一致性,引入三个具挑战性的视频数据集及Kinetics - 600数据集:

  1. DMLab - 40k:基于DeepMind Lab模拟器生成。在随机纹理的3D迷宫中选点并导航,产生40k个300帧、 64 × 64 64×64 64×64的动作条件视频,智能体在 7 × 7 7×7 7×7迷宫随机遍历。对模型进行动作条件与无条件预测训练,用例在4.3节讨论。
  2. Minecraft - 200k:源于我的世界游戏,在沼泽生物群系收集200k个300帧、 128 × 128 128×128 128×128的动作条件视频,玩家随机行走与转向,使场景部分进出视野。为便于评估,对模型进行动作条件训练。
  3. Habitat - 200k:借助Habitat模拟器,编译约1400个室内扫描,生成200k个300帧、 128 × 128 128×128 128×128的动作条件视频,用内置算法构建动作轨迹。对模型进行无条件和动作条件预测训练。
  4. Kinetics - 600:原用于动作识别的真实世界复杂数据集。在无动作的视频预测任务中评估方法,基于20帧生成80个未来帧,过滤短于100帧视频后,用392k个视频训练评估,分辨率 128 × 128 128×128 128×128。虽长程依赖关系少,但用于表明方法可扩展到复杂自然视频。

4.2 基线模型

我们与从几个不同模型家族中选择的最先进的基线模型进行比较:基于潜在变量的变分模型、自回归似然模型和扩散模型。此外,为了提高效率,我们使用针对每个数据集预训练的VQ-GAN在VQ码上训练所有模型。对于我们的扩散基线模型,我们遵循(Rombach等人,2022)的方法,使用VAE而不是VQ-GAN。请注意,我们的基线模型中没有GAN,因为据我们所知,不存在在潜在空间而不是原始像素上进行训练的GAN,而这对于适当地扩展到长视频序列至关重要。
- 时空变换器相关:将TECO与VideoGPT、Phenaki、MaskViT、Hourglass变换器等时空变换器变体对比,仅在DMLab数据集评估,评估时Phenaki不包含文本条件。
- FitVid:基于CNN和LSTM的先进变分视频模型,通过高效架构设计扩展到复杂视频。
- Clockwork VAE:变分视频模型,借潜在变量层次结构学习长程依赖关系。
- Perceiver AR:作为VQ - GAN离散潜在空间上的AR基线模型,能有效整合长程顺序依赖关系,因其比其他自回归基线模型(如VideoGPT、TATS)在处理大量标记时成本更低而被选用。
- Latent FDM:训练Latent FDM作为扩散基线模型,为公平比较,在潜在空间训练,遵循LDM方法用自动编码器将帧编码为连续潜在变量。

4.3 实验设置

训练

  1. 训练设置:所有模型在TPU - v3实例(v3 - 8到v3 - 128 TPU pod,类似4个V100到64个V100)上训练,计算预算以TPU - v3天衡量,训练100万次迭代,耗时约3 - 5天。
  2. 数据集适配:DMLab、Minecraft和Habitat数据集使用完整300帧视频训练,Kinetics - 600用100帧训练。
  3. VQGAN训练:VQGAN在8个A5000 GPU上训练,每个数据集需2 - 4天,将所有视频下采样到每帧16×16离散潜在网格。具体超参数和计算预算见附录N。

评估

  1. 传统指标局限:标准评估方法(FVD、PSNR、SSIM、LPIPS)难以衡量长程一致性。FVD对图像保真度敏感且依赖短Kinetics - 600剪辑训练的I3D网络;PSNR、SSIM和LPIPS评估常需采样数百未来帧找最匹配样本,与时间一致性目标不符,因期望模型确定性生成。
  2. 改进评估指标:提出修改后的评估指标,利用PSNR、SSIM和LPIPS更好衡量时间一致性。对DMLab、Minecraft和Habitat,基于144个过去帧和动作条件设定,用156个未来真实帧测量上述指标;同时在基于36帧条件设定的300帧视频上计算FVD。对Kinetics - 600,在基于20帧条件设定的100帧视频上评估FVD。所有指标在256个示例批次上计算,平均4次运行,共生成1024个样本。

4.4 基准测试结果

在不同数据集上,TECO与其他模型对比结果如下:

  • DMLab和Minecraft:定量结果表明,在300帧视频训练时,TECO在所有指标上最优。图6展示其生成的DMLab迷宫更具一致性。CW - VAE、FitVid和Perceiver AR能产生清晰预测,但长程上下文建模欠佳,随预测范围增加,逐帧指标急剧下降。Latent FDM预测有一致性,但因FVD对高频误差敏感,FVD较高。
  • Habitat:因模型并行性需求,仅评估Perceiver AR和Latent FDM这两个最强基线模型。由于视频复杂性,所有模型逐帧指标表现不佳,但TECO的FVD明显更优。定性来看,Latent FDM预测易模糊、样本质量差;Perceiver AR生成帧质量高,但时间一致性不如TECO,其生成的智能体运动与实际不符;TECO生成的场景遍历与数据分布更契合。
  • Kinetics - 600:在该数据集基于20帧预测80个128×128帧的FVD结果显示,虽数据集长程依赖关系少,但TECO结合更长上下文,生成结果更稳定,退化慢。Perceiver AR易快速退化,Latent FDM表现居中。

4.5 消融实验

在本节通过在SomethingSomething - v2(SSv2)16帧短序列上做消融实验,探究模型架构决策影响,具体如下:

  • 证明使用带MaskGit先验的VQ潜在动力学,在复杂真实世界数据上,优于如变分方法等其他潜在动力学模型公式。
  • 表明条件编码能为视频预测学习更好的表示。
  • 对码本大小消融实验,发现存在最优码本大小,且代码数量不过多就影响不大,过多则难学习先验。
  • 展示DropLoss好处,训练速度提升60%,FVD略增,对长序列好处更大,能让视频模型兼顾长程上下文且性能成本低。具体细节见附录表F.1 。

4.6 进一步见解

作者突出了一些设计长程视频生成模型的关键实验见解。更多细节可以在附录I和附录G中找到。
- 保真度与长程依赖的权衡:固定容量网络中,生成高保真与时间一致的视频存在固有权衡。瓶颈表示可侧重长程信息,高分辨率表示能提升保真度。TECO因学习紧凑表示,在保真度与时间一致性间权衡更佳,PSNR/SSIM/LPIPS及FVD表现更优。
- 训练时间与指标变化:训练中,短程指标早期易饱和,长程指标训练后期仍在改善。推测因似然目标下,学习相邻帧比特比长程比特容易。此发现促使TECO采用高效视频架构,在固定预算下增加梯度训练步数。
- 采样速度:图5展示各模型在Minecraft上采样速度,其他数据集使用不同模型大小时结果类似。FitVid和CW - VAE速度快但样本质量差;Perceiver AR和Latent FDM样本质量高,但比TECO慢20 - 60倍;TECO在保证样本质量的同时采样速度较快。

5. 讨论

我们引入了TECO,这是一种高效的视频预测模型,它利用数百帧的时间上下文,以及一个全面的基准来评估长程一致性。我们的评估表明,TECO准确地整合了长程上下文,在广泛的数据集上优于最先进的基线模型。此外,我们引入了几个具有挑战性的视频数据集,希望这些数据集能使未来评估视频预测模型的时间一致性变得更加容易。我们确定了几个限制作为未来工作的方向:

  • 评估指标优化:虽在特定条件下PSNR、SSIM和LPIPS可衡量一致性,但随着预测范围增大,需更好的评估指标,因新生成场景与真实情况相关性降低。
  • 模型架构拓展:当前重点是结合压缩标记、表达性先验与简单全注意力变换器,参考高效序列模型的前期研究成果,有望进一步扩展模型。
  • 训练方式改进:基于预训练的VQ - GAN代码训练模型降低数据维度,虽能训练长序列,但存在重建误差(如Kinetics - 600中的伪影)。TECO直接在像素上训练会因 ℓ 2 \ell_{2} 2损失致预测模糊,采用扩散或GAN损失在像素上训练是值得探索的方向。

热门专栏

机器学习

机器学习笔记合集

深度学习

深度学习笔记合集

相关文章:

多模态论文笔记——TECO

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细解读多模态论文TECO&#xff08;Temporally Consistent Transformer&#xff09;&#xff0c;即时间一致变换器&#xff0c;是一种用于视频生成的创新模型&…...

AI学习(vscode+deepseek+cline)

1、网页生成不成功时&#xff0c;直接根据提示让模型替你解决问题 2、http://localhost:3000 拒绝链接时&#xff0c;cmd输入命令InetMgr&#xff0c;网站右键新建-配置你的网页代码物理地址&#xff0c;这里我还输入本机登录名及密码了&#xff0c;并把端口地址由默认80修改为…...

物业软件推动物业行业数字化转型 实现高效管理和优质客户体验

内容概要 在当今高速发展的数字化时代&#xff0c;物业软件的出现不仅使物业管理变得更加高效&#xff0c;也为行业转型提供了强大的支持。通过整合多种功能&#xff0c;物业软件显著提升了管理效率和客户体验。例如&#xff0c;在线收费和停车管理功能&#xff0c;让业主享受…...

WGCLOUD使用手册 - 登录验证码如何设置

登录页面默认是不用输入验证码的&#xff0c;但是我们也可以根据自己的实际场景&#xff0c;配置登录页面显示验证码&#xff0c;要求用户输入 提示&#xff1a;您需要需要升级到v3.5.3或以上版本&#xff0c;才可以支持此功能 我们在server配置文件里找到配置项vercodeCheck&…...

C# 9.0记录类型:解锁开发效率的魔法密码

一、引言&#xff1a;记录类型的神奇登场 在 C# 的编程世界中&#xff0c;数据结构就像是构建软件大厦的基石&#xff0c;其重要性不言而喻。然而&#xff0c;传统的数据结构定义方式&#xff0c;尤其是在处理简单的数据承载对象时&#xff0c;常常显得繁琐复杂。例如&#xf…...

Python 函数魔法书:基础、范例、避坑、测验与项目实战

Python 函数魔法书&#xff1a;基础、范例、避坑、测验与项目实战 内容简介 本系列文章是为 Python3 学习者精心设计的一套全面、实用的学习指南&#xff0c;旨在帮助读者从基础入门到项目实战&#xff0c;全面提升编程能力。文章结构由 5 个版块组成&#xff0c;内容层层递进…...

Unbutu虚拟机+eclipse+CDT编译调试环境搭建

问题1: 安装CDT&#xff0c;直接Help->eclipse Market space-> 搜cdt , install&#xff0c;等待重启即可. 问题2&#xff1a;C变量不识别vector ’could not be resolved 这是库的头文件没加好&#xff0c;右键Properties->C Build->Enviroment&#xff0c;增加…...

项目部署(springboot项目)

1、安装Nginx&#xff0c;并开启 2、前端项目打包&#xff1a;npm run build:prod--->dist 3、后端项目打包&#xff1a;install--->xxx.jar 4、开放需要的端口号&#xff1a;比如我的后端项目端口号为8282&#xff0c;则需要防火墙和服务器同时开发8282端口 5、将di…...

Spring MVC拦截器

文章目录 1. 拦截器(interceptor)的作用2. 拦截器和过滤器区别3. 拦截器是快速入门 1. 拦截器(interceptor)的作用 Spring MVC 的拦截器类似于 Servlet 开发中的过滤器 Filter&#xff0c;用于对处理器进行预处理和后处理。 将拦截器按一定的顺序联结成一条链&#xff0c;这条…...

Nginx 路由匹配(Nginx Route Matching)

从小白到高手&#xff1a;深入Nginx 路由匹配 在现代互联网应用中&#xff0c;Nginx 作为一款高性能的 Web 服务器&#xff0c;因其灵活性和高效性而广泛应用于各类网站和服务。Nginx 的路由匹配规则是其核心功能之一&#xff0c;负责决定如何处理传入的请求。通过这些规则&am…...

基于RIP的MGRE实验

实验拓扑 实验要求 按照图示配置IP地址配置静态路由协议&#xff0c;搞通公网配置MGRE VPNNHRP的配置配置RIP路由协议来传递两端私网路由测试全网通 实验配置 1、配置IP地址 [R1]int g0/0/0 [R1-GigabitEthernet0/0/0]ip add 15.0.0.1 24 [R1]int LoopBack 0 [R1-LoopBack0]i…...

Spring Boot 中的事件发布与监听:深入理解 ApplicationEventPublisher(附Demo)

目录 前言1. 基本知识2. Demo3. 实战代码 前言 &#x1f91f; 找工作&#xff0c;来万码优才&#xff1a;&#x1f449; #小程序://万码优才/r6rqmzDaXpYkJZF 基本的Java知识推荐阅读&#xff1a; java框架 零基础从入门到精通的学习路线 附开源项目面经等&#xff08;超全&am…...

【Java基础-41.5】深入解析Java异常链:构建清晰的错误追踪体系

在Java编程中&#xff0c;异常处理是保证程序健壮性和可维护性的重要部分。然而&#xff0c;在实际开发中&#xff0c;异常往往不是孤立发生的&#xff0c;而是由一系列相关的异常引发的。为了更好地理解和处理这种复杂的异常场景&#xff0c;Java引入了 异常链&#xff08;Exc…...

STM32使用VScode开发

文章目录 Makefile形式创建项目新建stm项目下载stm32cubemx新建项目IED makefile保存到本地arm gcc是编译的工具链G++配置编译Cmake +vscode +MSYS2方式bilibiliMSYS2 统一环境配置mingw32-make -> makewindows环境变量Cmake CmakeListnijia 编译输出elfCMAKE_GENERATOR查询…...

特权模式docker逃逸

目录 1.环境 2.上线哥斯拉 3.特权模式逃逸 1.判断是否为docker环境 2.判断是否为特权模式 3.挂载宿主机磁盘到docker 4.计划任务反弹shell 1.环境 ubuntu部署一个存在CVE-2017-12615的docker: (ip:192.168.117.147) kali(ip:192.168.117.128) 哥斯拉 2.上线哥斯拉…...

装出字符串中国第一个匹配项的下标

hello 大家好&#xff01;今天开写一个新章节&#xff0c;每一天一道算法题。让我们一起来学习算法思维吧&#xff01; function strStr(haystack, needle) {return haystack.indexOf(needle); }// 测试示例 const haystack "sadbutsad"; const needle "sad&q…...

从腾讯云数据仓库TCHouse安全地转移数据到AWS Redshift

实现从AWS Direct Connect连接到腾讯云数据仓库TCHouse-P、TCHouse-C或TCHouse-D&#xff0c;然后使用AWS Glue读取数据并在AWS Redshift中创建对应表并复制数据&#xff0c;需要按照以下步骤进行操作&#xff1a; 网络连接设置 AWS Direct Connect配置&#xff1a; 在AWS管理…...

DataComp:探索下一代多模态数据集

目录 一、TL;DR 二、方法 2.1 为什么要单独研究数据质量&#xff1f; 2.2 数据质量的研究范式 三、其他的工作&#xff08;related work&#xff09; 3.1 传统的做法 3.2 数据剪枝和去重&#xff08;paper直接翻译&#xff09; 四、DataComp的benchmark 4.1 竞赛条件限…...

【linux】Linux 常见目录特性、权限和功能

目录特性默认权限主要功能/用途/根目录&#xff0c;所有目录的起点755文件系统的顶层目录&#xff0c;包含所有其他子目录和文件/bin基础二进制命令目录&#xff08;系统启动和修复必需的命令&#xff09;755存放所有用户可用的基本命令&#xff08;如 ls, cp, bash 等&#xf…...

基于SpringBoot电脑组装系统平台系统功能实现六

一、前言介绍&#xff1a; 1.1 项目摘要 随着科技的进步&#xff0c;计算机硬件技术日新月异&#xff0c;包括处理器&#xff08;CPU&#xff09;、主板、内存、显卡等关键部件的性能不断提升&#xff0c;为电脑组装提供了更多的选择和可能性。不同的硬件组合可以构建出不同类…...

Direct2D 极速教程(1) —— 画图形

极速导航 Direct2D 简介创建新项目&#xff1a;001-DrawGraphics弄一个白窗口在窗口上画图 Direct2D 简介 大家在学 WINAPI 的时候的时候有没有想过&#xff0c;怎么在一副窗口上画图呢&#xff1f;大家知道 Windows 系统是 GUI 图形用户界面 系统&#xff0c;以 Graphics 图形…...

DF 开发1

https://www.bilibili.com/video/BV1RFChYxEhJ/ 多个 workspace 图片上传 S3 上传大量文档 https://www.bilibili.com/video/BV1ySsEeUE6i 解决方案 返回 metadata https://www.bilibili.com/video/BV1t3e5eaENo 给出内容引用出处 模型负载均衡 可以以 ollama 在不同端口起服…...

[Computer Vision]实验二:图像特征点提取

目录 一、实验内容 二、实验过程及结果 2.1 Harris角点检测 2.2 SIFT算法 三、实验小结 一、实验内容 采用Harris与SIFT分别提取特征点及对应的描述子&#xff0c;对比两者的区别&#xff08;特征点数量、分布、描述子维度、图像变化对二者的影响等&#xff09;利用特征匹…...

在做题中学习(82):最小覆盖子串

解法&#xff1a;同向双指针——>滑动窗口 思路&#xff1a;题目要求找到s里包含t所有字符的最小子串&#xff0c;这就需要记录在s中每次查找并扩大范围时所包含进去的字符种类是否和t的相同&#xff0c;并且&#xff1a;题目提示t中会有重复字符&#xff0c;因此不能简单认…...

< OS 有关> BaiduPCS-Go 程序的 菜单脚本 Script: BaiduPCS-Go.Menu.sh (bdgo.sh)

目标&#xff1a; 使用 日本阿里云的 VPM 传输文件。 暂时方案&#xff1a; 使用 主机JPN 下载 https://huggingface.co/ 上模型从 JPN 放到 度狗上在家里从狗度下载 为了减少编程&#xff0c;尽量使用现在软件 &#xff0c;就找到 GitHub - qjfoidnh/BaiduPCS-Go: iikira…...

redis缓存和springboot缓存包冲突怎么办

如果Redis缓存与Spring Boot缓存包发生冲突&#xff0c;可以采取以下几种解决方案&#xff1a; 排除Spring Boot缓存包&#xff1a;在pom.xml文件中排除Spring Boot的缓存依赖&#xff0c;以避免与Redis缓存冲突。例如&#xff1a; <dependency><groupId>org.spr…...

云计算技术深度解析与代码使用案例

云计算技术深度解析与代码使用案例 引言 随着信息技术的飞速发展,云计算作为一种革命性的技术,正在逐步改变我们的生活和工作方式。云计算不仅提供了前所未有的计算能力和存储资源,还以其灵活性和可扩展性,成为现代企业数字化转型的重要支撑。本文将深入探讨云计算的核心…...

【教学类-89-01】20250127新年篇01—— 蛇年红包(WORD模版)

祈愿在2025蛇年里&#xff0c; 伟大的祖国风调雨顺、国泰民安、每个人齐心协力&#xff0c;共同经历这百年未有之大变局时代&#xff08;国际政治、AI技术……&#xff09; 祝福亲友同事孩子们平安健康&#xff08;安全、安全、安全&#xff09;、巳巳如意&#xff01; 背景需…...

React Router v6配置路由守卫

首先准备好以下页面 登录页&#xff1a;用户可以在此页面登录。 受保护页&#xff1a;只有登录的用户可以访问&#xff0c;否则会重定向到登录页。 公共页面&#xff1a;不需要鉴权&#xff0c;任何人都可以访问。 1. 安装依赖 首先&#xff0c;我们需要安装 react-router-do…...

双层Git管理项目,github托管显示正常

双层Git管理项目&#xff0c;github托管显示正常 背景 在写React项目时&#xff0c;使用Next.js,该项目默认由git托管。但是我有在项目代码外层记笔记的习惯&#xff0c;我就在外层使用了git托管。 目录如下 code 层内也有.git 文件&#xff0c;对其托管。 我没太在意&…...

Linux--权限

Linux系统的权限管理是保障系统安全的重要机制&#xff0c;以下详细讲解权限相关概念及操作指令&#xff1a; 一、基础权限机制 1. 权限的三元组&#xff0c;读&#xff08;r&#xff09;、写&#xff08;w&#xff09;、执行&#xff08;x&#xff09; 每个文件或目录有三组…...

第25章 项目启航前的密谈

在那弥漫着严谨与专注气息的会议室里&#xff0c;苏睿所长端坐在会议桌前&#xff0c;宛如一座沉稳的山峰&#xff0c;散发着一种让人安心的力量。他的神情认真而庄重&#xff0c;目光中透着几分感慨&#xff0c;仿佛在时光的长河中回溯着项目的点点滴滴。微微侧身看向东方艾艾…...

ModernBERT 为我们带来了哪些启示?

当谷歌在 2018 年推出 BERT 模型时&#xff0c;恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。 六年后的今天&#xff0c;面对动辄千亿参数的大语言模型浪潮&#xff0c;Answer.AI、LightOn与 HuggingFace 联手打造的 ModernBERT 却选择了一条返璞归真的…...

【MySQL】--- 复合查询 内外连接

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏&#xff1a; MySQL &#x1f3e0; 基本查询回顾 假设有以下表结构&#xff1a; 查询工资高于500或岗位为MANAGER的雇员&#xff0c;同时还要满足他们的姓名首字母为…...

Android Studio打包APK

1.导出APK安装包 如果是首次打包&#xff0c;Create new 单击蓝色对话框右边文件夹&#x1f4c2;图标 &#xff0c;选择密钥保存路径&#xff0c;然后在下方File name对话框中填写您想要名称&#xff0c;再点击OK回到密钥创建对话框。 在此对话框中填写密码&#xff08;Passwo…...

RKNN_C++版本-YOLOV5

1.背景 为了实现低延时&#xff0c;所以开始看看C版本的rknn的使用&#xff0c;确实有不足的地方&#xff0c;请指正&#xff08;代码借鉴了rk官方的仓库文件&#xff09;。 2.基本的操作流程 1.读取模型初始化 // 设置基本信息 // 在postprocess.h文件中定义&#xff0c;详见…...

Git常用命令集合

见过不少人、经过不少事、也吃过不少苦&#xff0c;感悟世事无常、人心多变&#xff0c;靠着回忆将往事串珠成链&#xff0c;聊聊感情、谈谈发展&#xff0c;我慢慢写、你一点一点看...... git init <directory》初始化本地仓库 git add <file> 添加文件到暂存区 git …...

【deepseek】deepseek-r1本地部署-第一步:下载LM Studio

要下载LM Studio&#xff0c;可以按照以下步骤进行&#xff1a; 一、访问LM Studio官方网站 打开必应&#xff08;注意&#xff01;百度无法打开官网&#xff09;&#xff0c;输入LM Studio的官方网址&#xff1a;LM Studio - Discover, download, and run local LLMs。进入L…...

【数据结构】_链表经典算法OJ:合并两个有序数组

目录 1. 题目描述及链接 2. 解题思路 3. 程序 3.1 第一版 3.2 第二版 1. 题目描述及链接 题目链接&#xff1a;21. 合并两个有序链表 - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a; 将两个升序链表合并为一个新的 升序 链表并返回。 新链表是通过拼接给…...

mybatis(78/134)

前天学了很多&#xff0c;关于java的反射机制&#xff0c;其实跳过了new对象&#xff0c;然后底层生成了字节码&#xff0c;创建了对应的编码。手搓了一遍源码&#xff0c;还是比较复杂的。 <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE …...

【物联网】ARM核常用指令(详解):数据传送、计算、位运算、比较、跳转、内存访问、CPSR/SPSR、流水线及伪指令

文章目录 指令格式&#xff08;重点&#xff09;1. 立即数2. 寄存器位移 一、数据传送指令1. MOV指令2. MVN指令3. LDR指令 二、数据计算指令1. ADD指令1. SUB指令1. MUL指令 三、位运算指令1. AND指令2. ORR指令3. EOR指令4. BIC指令 四、比较指令五、跳转指令1. B/BL指令2. l…...

Mybatis配置文件详解

MyBatis通过XML或注解的方式将Java对象与数据库中的记录进行映射&#xff0c;极大地简化了数据访问层的开发。而在MyBatis的核心组成部分中&#xff0c;配置文件扮演着举足轻重的角色。它不仅定义了MyBatis的运行环境&#xff0c;还配置了数据源、事务管理、映射器等关键元素&a…...

一组开源、免费、Metro风格的 WPF UI 控件库

前言 今天大姚给大家分享一个开源、免费、Metro风格的 WPF UI 控件库&#xff1a;MahApps.Metro。 项目介绍 MahApps.Metro 是一个开源、免费、Metro风格的 WPF UI 控件库&#xff0c;提供了现代化、平滑和美观的控件和样式&#xff0c;帮助开发人员轻松创建具有现代感的 Win…...

.NET MAUI 入门学习指南

引言 在当今移动应用和跨平台开发的热潮中,.NET MAUI(Multi - platform App UI)应运而生,为开发者提供了一种高效、统一的方式来构建跨多个平台(如 iOS、Android、Windows 等)的原生应用。它整合了 Xamarin.Forms 的优点,并在此基础上进行了诸多改进和创新,使得开发者…...

【超详细】ELK实现日志采集(日志文件、springboot服务项目)进行实时日志采集上报

本文章介绍&#xff0c;Logstash进行自动采集服务器日志文件&#xff0c;并手把手教你如何在springboot项目中配置logstash进行日志自动上报与日志自定义格式输出给logstash。kibana如何进行配置索引模式&#xff0c;可以在kibana中看到采集到的日志 日志流程 logfile-> l…...

本地大模型编程实战(04)给文本自动打标签

文章目录 准备实例化本地大模型情感分析更精细的控制总结代码 使用本地大模型可以根据需要给文本打标签&#xff0c;本文介绍了如何基于 langchain 和本地部署的大模型给文本打标签。 本文使用 llama3.1 作为本地大模型&#xff0c;它的性能比非开源大模型要查一下&#xff0c;…...

JavaScript反爬技术解析与应对

JavaScript 反爬技术解析与应对 前言 在当今 Web 爬虫与数据抓取的生态环境中&#xff0c;网站运营方日益关注数据安全与隐私保护&#xff0c;因此逐步采用多种反爬技术来限制非授权访问。本文从 JavaScript 角度出发&#xff0c;深入剖析主流反爬策略的技术原理&#xff0c;…...

【C++动态规划 状态压缩】2741. 特别的排列|2020

本文涉及知识点 C动态规划 状态压缩 LeetCode2741. 特别的排列 给你一个下标从 0 开始的整数数组 nums &#xff0c;它包含 n 个 互不相同 的正整数。如果 nums 的一个排列满足以下条件&#xff0c;我们称它是一个特别的排列&#xff1a; 对于 0 < i < n - 1 的下标 i…...

省级数字经济发展水平数据(2011-2022年)-社科数据

省级数字经济发展水平数据&#xff08;2011-2022年&#xff09;-社科数据https://download.csdn.net/download/paofuluolijiang/90028602 https://download.csdn.net/download/paofuluolijiang/90028602 数字经济是指以数据资源为关键要素、以现代信息网络为主要载体、以信息…...

【问题解决】el-upload数据上传成功后不显示成功icon

el-upload数据上传成功后不显示成功icon 原因 由于后端返回数据与要求形式不符&#xff0c;使用el-upload默认方法调用onSuccess钩子失败&#xff0c;上传文件的状态并未发生改变&#xff0c;因此数据上传成功后并未显示成功的icon标志。 解决方法 点击按钮&#xff0c;调用…...