当前位置：首页 > news >正文

NOVA：AutoRegressive Video Generation Without Vector Quantization——自回归视频生成无需向量量化

news 来源：原创 2025/9/17 18:09:15

这篇文章介绍了一种名为NOVA的新型自回归模型，用于高效的文本到图像和文本到视频生成。以下是文章的主要内容总结：

1. 研究背景与问题

自回归大语言模型（LLMs）在自然语言处理（NLP）中表现出色，但在视觉生成领域，现有的自回归模型通常依赖于向量量化（VQ），这在高保真度和高压缩率之间难以平衡。
扩散模型在视觉生成中取得了显著进展，但它们通常只能生成固定长度的视频，且缺乏自回归模型的上下文能力。

2. NOVA的核心创新

无量化自回归建模：NOVA通过无量化的自回归建模，将视频生成问题重新表述为时间上的逐帧预测和空间上的逐集预测。
因果性与双向建模：NOVA保持了GPT风格模型的因果性，同时在单个帧内利用双向建模来提高效率。
高效训练与推理：NOVA在数据效率、推理速度、视觉保真度和视频流畅性方面超越了现有的自回归视频模型，且模型容量更小（0.6B参数）。

3. 方法论

时间自回归建模：NOVA按因果顺序逐帧预测视频帧，并通过光流和文本提示来控制视频动态。
空间自回归建模：NOVA在每帧内按随机顺序预测标记集，利用双向建模来提高推理效率。
扩散过程去噪：NOVA在训练中使用扩散损失来估计逐标记概率，并在推理时通过逐步去噪生成高质量图像和视频。

4. 实验与结果

数据集与训练：NOVA使用了多个高质量的数据集进行训练，包括文本到图像和文本到视频任务。
性能评估：NOVA在文本到图像生成任务中超越了现有的扩散模型，并在文本到视频生成任务中与最先进的扩散模型性能相当，且推理速度更快。
零样本泛化：NOVA在扩展视频时长和跨上下文任务中表现出良好的泛化能力。

5. 结论

NOVA为下一代视频生成和世界模型铺平了道路，提供了超越现有视频扩散模型的实时和无限视频生成的可能性。
未来的工作将继续探索更大模型和数据扩展，以进一步挖掘NOVA的潜力。

NOVA通过无量化自回归建模和高效的训练与推理方法，在文本到图像和文本到视频生成任务中取得了显著的性能提升，展示了其在多模态生成领域的强大潜力。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

官方发布的文生图预训练模型如下：

Model	Parameters	Resolution	Data	Weight	GenEval	DPGBench
NOVA-0.6B	0.6B	512x512	16M	🤗 HF link	0.75	81.76
NOVA-0.3B	0.3B	1024x1024	600M	🤗 HF link	0.67	80.60
NOVA-0.6B	0.6B	1024x1024	600M	🤗 HF link	0.69	82.25
NOVA-1.4B	1.4B	1024x1024	600M	🤗 HF link	0.71	83.01

文生视频预训练模型如下：

Model	Parameters	Resolution	Data	Weight	VBench
NOVA-0.6B	0.6B	33x768x480	20M	🤗 HF link	80.12

摘要

本文提出了一种新颖的方法，能够高效地进行自回归视频生成。我们将视频生成问题重新表述为无量化的自回归建模，包括时间上的逐帧预测和空间上的逐集预测。与之前自回归模型中的光栅扫描预测或扩散模型中固定长度标记的联合分布建模不同，我们的方法保持了GPT风格模型的因果特性，以实现灵活的上下文能力，同时在单个帧内利用双向建模来提高效率。通过所提出的方法，我们训练了一个无需向量量化的新型视频自回归模型，称为NOVA。实验结果表明，NOVA在数据效率、推理速度、视觉保真度和视频流畅性方面超越了之前的自回归视频模型，即使模型容量小得多（即0.6B参数）。NOVA在文本到图像生成任务中也优于最先进的图像扩散模型，且训练成本显著降低。此外，NOVA在扩展视频时长上表现出良好的泛化能力，并在一个统一模型中实现了多样化的零样本应用。

1 引言

自回归大语言模型（LLMs）（Brown et al. (2020); Touvron et al. (2023)）已成为自然语言处理（NLP）中的基础架构，展示了在上下文学习和长上下文推理中的新兴能力。在自回归（AR）视觉生成领域，之前的方法（Ramesh et al. (2021); Ding et al. (2021); Yu et al. (2022); Yan et al. (2021); Villegas et al. (2022); Kondratyuk et al. (2023); Wang et al. (2024)）通常通过向量量化（Van Den Oord et al. (2017); Esser et al. (2021)）将图像或视频片段转换为离散值标记空间，然后将其展平为序列以进行逐标记预测。然而，向量量化标记器在同时实现高保真度和高压缩率方面具有挑战性。高质量需要更多的标记，因此随着图像分辨率或视频序列长度的增加，成本显著增加。

相比之下，视频扩散模型（Brooks et al. (2024); Kuaishou (2024); Blattmann et al. (2023)）在紧凑的连续潜在空间中学习高度压缩的视频序列。然而，大多数模型仅学习固定长度帧的联合分布，缺乏生成不同长度视频的灵活性。更重要的是，它们不具备自回归模型的上下文能力，例如像GPT那样在上下文中解决多样化任务。

在这项工作中，我们提出了NOVA，解决了上述问题，并实现了高效的自回归视频生成。我们提出将视频生成问题重新表述为无量化的自回归建模，包括时间上的逐帧预测和空间上的逐集预测。NOVA受到Emu3（Wang et al. (2024)）自回归视频和多模态生成的启发，以及MAR（Li et al. ()）无量化自回归图像生成的影响，后者使用无量化向量作为视觉标记并执行逐集自回归预测。虽然两者都是无量化自回归方法，但从MAR到NOVA并非易事：1) NOVA解决了包括效率、可扩展性和掩码调度在内的挑战，尤其是在学习更复杂的文本到图像生成而不是类别到图像生成时。2) NOVA首先按时间顺序预测帧，然后在每个帧内预测空间集。NOVA是第一个实现无量化自回归视频生成的模型。

具体来说，NOVA在时间上按因果顺序预测每一帧，在空间上按随机顺序预测每个标记集。通过这种方式，文本到视频生成可以被视为一个基本任务，隐式且全面地涵盖了各种生成任务（见图1），包括文本到图像、图像到视频、文本&图像到视频等。通过无量化标记器和灵活的自回归框架，NOVA同时利用了1) 高保真度和紧凑的视觉压缩，降低了训练和推理成本，以及2) 上下文能力，将多个视觉生成任务集成到一个统一模型中。

在文本到视频生成方面，NOVA在数据效率、推理速度和视频流畅性方面超越了自回归模型，同时与类似规模的扩散模型性能相当，例如在A100-40G上仅训练342 GPU天，实现了VBench（Huang et al. (2024)）得分80.1，处理速度为2.75 FPS1。在文本到图像生成方面，NOVA实现了GenEval（Ghosh et al. (2024)）得分0.75，超越了之前的扩散模型，且训练成本显著降低，仅需127 GPU天即可训练这个最先进的0.6B模型。此外，NOVA在各种上下文中也表现出强大的零样本泛化能力。我们相信，NOVA为下一代视频生成铺平了道路，提供了超越Sora-like视频扩散模型的实时和无限视频生成的可能性。

2 相关工作

扩散模型在视觉生成中的应用

扩散模型（Ho et al. (2020); Song et al. (2020)）在视觉生成领域取得了显著进展，包括文本到图像任务（Esser et al. (); Betker et al. (); Baldridge et al. (2024)）和文本到视频任务（Brooks et al. (2024); Lin et al. (2024); Blattmann et al. (2023)）。图像扩散模型通常在像素（Ho et al. (2020); Nichol et al. (2021); Hoogeboom et al. (2023)）或潜在空间（Rombach et al. (); Esser et al. (); Betker et al. (); Chen et al. (2023)）中建模固定长度标记的联合分布。此外，视频扩散模型进一步引入了时间层来捕捉固定数量视频帧之间的关系。训练后，通过额外的推理技巧（Meng et al. (2021)）、结构调节（Blattmann et al. (2023); Esser et al. (); Liew et al. (2023)）和适配器层（Zhang et al. (); Guo et al. (2023)）添加了额外的任务和模态。尽管这些策略可以是可组合的，但它们与自回归方法（Kondratyuk et al. (2023); Hong et al. (2022); Radford (2018); Touvron et al. (2023)）形成对比，后者训练一个端到端的单一模型进行多任务学习，提供了显著的上下文可扩展性和跨多样化应用场景的零样本泛化能力，特别是在扩展视频生成时长方面。

自回归模型在视觉生成中的应用

光栅扫描自回归模型通常在离散值的RGB像素（Kalchbrenner et al. (2017); Reed et al. (2017)）或潜在空间（Esser et al. (2021); Van Den Oord et al. (2017)）中实现，类似于其语言对应物（Radford et al. (2019); Anil et al. (2023)）。最近的研究涉及可扩展的自回归变压器，以光栅扫描顺序生成标记序列用于图像生成（Ramesh et al. (2021); Ding et al. (2021, 2022); Yu et al. (2022); Sun et al. (), 和视频生成（Yan et al. (2021); Kondratyuk et al. (2023); Nash et al. (2022)）。具体来说，VAR（Tian et al. (2024)）引入了下一尺度预测，逐步处理跨多个分辨率的逐标记序列，从而提高了图像质量。

掩码自回归模型进一步发展了掩码生成模型（Chang et al. (2022)），引入了广义自回归概念。它们引入了双向变压器，并通过关注未掩码条件来预测随机掩码的标记。这弥补了逐行策略的次优建模和低效推理，激发了文本到图像（Chang et al. (2023)）和文本到视频生成（Hong et al. (2022); Yu et al. (2023); Villegas et al. (2022)）的一系列后续工作。特别是，MAR（Li et al. ()）将离散标记器与自回归模型解耦，并利用扩散过程进行逐标记概率分布。它在类别到图像领域得到了充分验证，在文本到图像领域具有巨大潜力。然而，将其应用于文本到视频生成直观上需要跨整个视频帧的掩码自回归过程，这对多上下文学习和训练效率提出了挑战。相比之下，我们的NOVA模型将视频生成分解为逐帧时间预测与空间逐集预测相结合。这使得每一帧作为一个元因果单元，实现了扩展视频时长和跨各种上下文的零样本泛化能力。此外，随后的空间标记集预测释放了双向建模模式的力量，在保持视觉质量和保真度的同时提高了推理效率。

3 方法论

我们首先在第3.1节回顾了两类自回归视频生成。在第3.2-3.4节中，我们介绍了NOVA的框架管道和实现细节，如图2所示。

图2：NOVA框架及推理过程。在输入文本后，NOVA通过时间上的逐帧预测和空间上的逐集预测进行自回归生成。最后，我们在连续值空间中进行扩散去噪

重新思考自回归模型用于视频生成

如上所述，我们将文本到视频生成和自回归（AR）模型分别视为基本任务和手段。我们简要回顾了相关的技术背景。存在两种类型的AR视频生成方法：(1) 通过光栅扫描顺序逐标记生成。 这些研究在视频帧序列内执行因果逐标记预测（Kondratyuk et al. (2023)），并按照光栅扫描顺序解码视觉标记（Wang et al. (2024)），定义如下：

其中C表示各种条件上下文，例如标签、文本、图像等。注意，xn表示N个视频光栅尺度标记中的第n个标记。相比之下，(2) 随机顺序中的掩码逐集生成 将每个视频帧内的所有标记视为平等，使用双向变压器解码器进行逐集预测（Yu et al. (2023)）。然而，这种广义自回归（AR）模型在大型固定长度视频帧上使用同步建模进行训练，这可能导致上下文可扩展性差和较长视频时长上的连贯性问题。因此，NOVA提出了一种新颖的解决方案，将单个视频帧内的逐集生成与整个视频序列的逐帧预测解耦。这使得NOVA能够更好地处理时间因果关系和空间关系，提供了一个更灵活和可扩展的AR框架。

通过逐帧预测进行时间自回归建模

受（Zhuo et al. (2024)）启发，我们使用预训练的语言模型（Javalneriqi et al. (2023)）将文本提示编码为特征。为了更好地控制视频动态，我们使用OpenCV（cv2）（Bradski (2000)）计算采样视频帧的光流。平均流幅度用作运动得分并与提示集成。此外，我们采用开源的3D变分自编码器（VAE）（Lin et al. (2024)），时间步长为4，空间步长为8，将视频帧编码到潜在空间。我们添加了一个额外的可学习补丁嵌入层，空间步长为4，以将潜在视频通道与后续变压器对齐。值得注意的是，早期AR模型中的下一标记预测对于单个图像内的无方向视觉补丁似乎违反直觉，并且在推理期间遭受高延迟。相比之下，视频帧自然可以被视为因果序列，每一帧作为AR生成的元单元。因此，我们实现了块状因果掩码注意力，如图3(a)所示，确保每一帧只能关注文本提示、视频流及其前面的帧，同时允许所有当前帧标记彼此可见，如下所示：

通过逐集预测进行空间自回归建模

受（Chang et al. (2022); Li et al. ()）启发，我们将每个标记集定义为来自随机方向的多个标记作为元因果标记，如图3(b)所示，促进了具有高效并行解码的广义AR过程。值得注意的是，我们尝试利用时间层的输出作为指示特征来辅助空间层，逐步解码相应图像内的所有随机掩码标记集。然而，这种方法导致了图像结构崩溃和随着帧数增加视频流畅性不一致。我们假设这是因为来自相邻帧的指示特征相似，使得在没有显式建模的情况下难以准确学习连续且不可察觉的运动变化。此外，训练期间从地面真实上下文帧派生的指示特征导致空间AR层对累积推理误差的鲁棒性和稳定性较弱。

图3：我们块状时间和空间广义自回归注意力的概述。与逐标记生成不同，NOVA在时间尺度上按因果顺序逐帧预测，并在空间尺度上按随机顺序逐集预测标记集

通过扩散过程去噪进行逐标记预测

4 实验

实验设置

数据集。 我们涉及了几个多样化、精选和高质量的数据集，以促进NOVA的训练。对于文本到图像训练，我们最初策划了16M图像-文本对，来源于DataComp（Gadre et al. (2024)）、COYO（Byeon et al. (2022)）、Unsplash（UnsplashTeam (2020)）和JourneyDB（Sun et al. ()）。为了探索NOVA的扩展特性，我们通过从LAION（Schuhmann et al. (2022)）、DataComp和COYO中选择更多具有最低美学分数5.0的图像，将数据集扩展到大约600M图像-文本对。对于文本到视频训练，我们在Panda-70M（Chen et al. ()）的子集（Lin et al. (2024)）和内部视频-文本对上选择了19M视频-文本对。我们进一步从Pexels（PexelsTeam (2014)）收集了1M高分辨率视频-文本对，以微调我们的最终视频生成模型。遵循（Diao et al. (2024)），我们基于Emu2-17B（Sun et al. (2023)）模型训练了一个标题引擎，为我们的图像和视频数据集创建高质量描述。最大文本长度设置为256。

架构。 我们主要遵循（Li et al. ()）构建NOVA的空间AR层和去噪MLP块，包括LayerNorm（Lei Ba et al. (2016)）、AdaLN（Huang & Belongie (), 线性层、SiLU激活（Elfwing et al. (2018)）和另一个线性层的层序列。我们配置时间编码器、空间编码器和解码器各有16层，维度为768（0.3B）、1024（0.6B）或1536（1.4B）。去噪MLP由3个块组成，维度为1280。空间层采用MAR（Li et al. ()）的编码器-解码器架构，类似于MAE（He et al. (2022)）。具体来说，编码器处理可见补丁以进行重建。解码器进一步处理可见和掩码补丁以进行生成。为了捕捉图像潜在特征，我们采用了预训练和冻结的VAE（Lin et al. (2024)），它在时间维度上实现了4倍压缩，在空间维度上实现了8×8压缩。我们采用了（Li et al. (); Nichol & Dhariwal (2021)）的掩码和扩散调度器，在训练期间使用0.7到1.0之间的掩码比率，并在推理期间按照余弦调度（Chang et al. (2023)）从1.0逐渐减少到0。与常见做法（Ho et al. (2020)）一致，我们使用1000步噪声调度进行训练，但在推理中默认为100步。

训练细节。 NOVA使用16个A100（40G）节点进行训练。我们使用AdamW优化器（Loshchilov et al. (2017)）（β1=0.9,β2=0.95），权重衰减为0.02，所有实验中的基础学习率为1e-4。峰值学习率根据训练期间的不同批量大小进行调整，使用缩放规则（Goyal (2017)）：Ir = base_lr × batchsize/256。我们从零开始训练文本到图像模型，然后加载这些权重来训练文本到视频模型。

评估。 我们使用T2I-CompBench（Huang et al. (2023)）、GenEval（Ghosh et al. (2024)）和DPG-Bench（Hu et al. (2024)）来评估生成图像与文本条件之间的对齐。我们为每个原始或重写（Wang et al. (2024)）文本提示生成图像样本。每个图像样本的分辨率为512×512或1024×1024。我们使用VBench（Huang et al. (2024)）来评估文本到视频生成的能力，涵盖16个维度。对于给定的文本提示，我们随机生成5个样本，每个样本的视频大小为33×768×480。我们在所有评估实验中使用分类器自由指导（Ho & Salimans (2022)），值为7.0，以及128个自回归步骤，以增强生成的图像和视频的质量。

主要结果

NOVA在文本到图像模型中表现出色，具有卓越的性能和效率。 在表2中，我们将NOVA与几个最近的文本到图像模型进行了比较，包括PixArt-α（Chen et al. (2023)）、SD v1/v2（Rombach et al. (), SDXL（Podell et al. (2023)）、DALL-E2（Ramesh et al. (2022)）、DALL-E3（Betker et al. (), SD3（Esser et al. ())）、LlamaGen（Sun et al. ()和Emu3（Wang et al. (2024)）。在文本到图像训练后，NOVA在GenEval基准测试中实现了最先进的性能，特别是在生成指定数量的目标方面。值得注意的是，NOVA在T2I-CompBench和DPG-Bench上也取得了领先的结果，在小模型规模和数据规模上表现出色（仅需最佳竞争对手PixArt-α的16%训练开销）。_最后但同样重要的是，我们的文本到视频模型优于大多数专门的文本到图像模型，例如SD v1/v2、SDXL和DALL-E2。这突显了我们的模型在多上下文场景中的鲁棒性和多功能性，以文本到视频生成为基础训练任务。

NOVA与扩散文本到视频模型相媲美，并显著抑制了AR对应物。 我们强调，当前版本的NOVA设计用于生成33帧的视频，并可以通过预填充最近生成的帧来扩展视频长度。我们进行了定量分析，将NOVA与开源和专有的文本到视频模型进行比较。如表3所示，尽管其规模显著较小（0.6B vs. 9B），NOVA在各种文本到视频评估指标上显著优于CogVideo（Hong et al. (2022)）。它还匹配了最新SOTA模型Emu3（Wang et al. (2024)）的性能（80.12 vs. 80.96），且规模显著较小（0.6B vs. 8B）。此外，我们将NOVA与最先进的扩散模型进行了比较。这包括闭源模型如Gen-2（Runway (2023)）、Kling（Kuaishou (2024)）和Gen-3（Runway (2024)），以及开源替代品如LaVie（Wang et al. (2023)）、Show-1（Zhang et al. (2023a)）、AnimateDiff-v2（Guo et al. (2024)）、VideoCrafter-v2.0（Chen et al. (2024a)）、T2V-Turbo（ Li et al. (2024b)）、OpenSora-v1.1（Zheng et al. (2024)）、OpenSoraPlan-v1.1/v1.2（Lin et al. (2024)）和CogVideoX（Yang et al. (2024)）。结果强调了文本到图像预训练在我们广义因果过程中的有效性。值得注意的是，我们缩小了自回归和扩散方法在建模大规模视频-文本对之间的差距，增强了视频生成的质量和指令跟随能力。此外，NOVA在推理延迟方面表现出显著的速度优势。

定性结果

高保真图像和高流畅视频。 我们在图4中展示了当前领先图像生成方法的定性比较。NOVA在一系列提示风格中表现出强大的视觉质量和保真度，并在颜色属性绑定和空间对象关系方面表现出色。我们在图5中展示了文本到视频的可视化，突出了NOVA根据提供的文本提示捕捉多视角、平滑对象运动和稳定场景转换的能力。

视频外推的零样本泛化。 通过预填充生成的帧，NOVA可以生成超过训练长度的视频。例如，通过同时移动文本和BOV嵌入，我们生成了长达原始长度两倍的5秒视频，如图6所示。我们观察到，在视频外推过程中，NOVA始终保留帧间主题的时间一致性。例如，当提示描述一个圆顶和一个灯笼房间时，模型准确地表示了房子内的灯光，并捕捉到了日落的过渡。这进一步强调了因果建模在长上下文视频生成任务中的优势。

消融研究

时间自回归建模的有效性。 为了突出时间自回归建模的优势，我们促进了空间自回归完成视频生成任务。具体来说，我们将时间层的注意力掩码修改为双向注意力，并使用逐集预测随机预测整个视频序列。我们观察到在相同训练迭代次数下视频中的主题移动较少（图8）。此外，在各种上下文或视频外推的零样本泛化中，网络输出表现出更多的伪影和时间不一致性。此外，这种方法在推理期间与kv-cache加速不兼容，导致延迟随着视频帧数的增加而线性增加。这进一步证明了因果建模在视频生成中优于多任务方法。

缩放和移位层的有效性。 为了捕捉跨帧运动变化，我们采用了一个简单但有效的缩放和移位层，以显式建模来自BOV关注特征空间的相对分布。在图9(a)中，我们展示了这种方法显著减少了文本到图像和图像到视频生成损失之间的漂移。随着我们逐渐降低MLP的内部秩，训练难度增加，导致网络的学习过程更加全面和鲁棒。然而，极低的秩值对运动建模提出了挑战，因为它们显著限制了层的表示能力（图10）。在所有文本到视频实验中，默认秩设置为24，从而实现了更准确的运动预测。

后归一化层的有效性。 训练大规模图像和视频生成模型（Ding et al. (2021); ChameleonTeam ()）从零开始通常面临混合精度的重大挑战，这也在其他视觉识别方法中观察到（Liu et al. (2022)）。如图9(b)所示，使用预归一化（Dosovitskiy et al. (2021)）的训练过程遭受数值溢出和方差不稳定性。我们尝试了各种正则化技术，如随机深度（Huang et al. (2016)）和残差丢弃（Vaswani et al. (2017)），但发现它们效果较差。受（Liu et al. (2022)）启发，我们引入了后归一化，并经验性地发现，与预归一化相比，它可以有效缓解输出嵌入的残差积累，从而实现更稳定的训练过程。

5 结论

在本文中，我们提出了NOVA，一种新颖的自回归模型，设计用于文本到图像和文本到视频生成。NOVA在显著减少训练和推理开销的同时，提供了卓越的图像质量和视频流畅性。我们的关键设计包括时间逐帧预测、空间逐集生成以及跨各种上下文的连续空间自回归建模。大量实验表明，NOVA在图像生成中实现了接近商业质量，同时在视频生成中展示了有希望的保真度和流畅性。NOVA为下一代视频生成和世界模型铺平了道路。它提供了超越Sora-like视频扩散模型的实时和无限视频生成的宝贵见解和可能性。作为第一步，我们将继续进行更大模型和数据扩展的可扩展实验，以探索NOVA在未来的极限。