当前位置：首页 > news >正文

（2024，影响 LLaVA 性能的因素，LLM 模型规模，视觉输入配置（网格/token 数），AnyRes，数据量/质量）

news 来源：原创 2025/9/15 15:40:10

LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?

0. 简介

1. 架构

1.1 语言模型

1.2 视觉编码器

2. 视觉表示

2.1 训练时分辨率和 token 数量配置

2.2 LLM 扩展的有效性

2.3 放大原始图像

2.4 推理时分辨率和 token 数量配置

2.5 池化方法

3. 训练策略

3.1 语言-图像对齐

3.2 高质量知识学习

0. 简介

视觉指令调优（Visual instruction tuning）在大型多模态模型（LMM）的发展中起着至关重要的作用，这些模型旨在跟随（follow）人类意图完成各种野外计算机视觉任务。在这一研究领域，研究一贯表明数据驱动方法在取得成功中的有效性，强调高质量指令数据的重要性，正如 LLaVA 系列的进展所示，包括 LLaVA-1.0、LLaVA-1.5 和最新版本 LLaVA-NeXT（分别于 1 月和 5 月发布）。特别是，最大的 LLaVA-NeXT-110B 模型在选定基准测试中表现接近 GPT4-V，这是通过一种高效的训练方案实现的。然而，关于阐明训练方案中额外因素影响的研究较少。这引发了一个问题：除了指令数据本身，视觉指令调优还受到哪些因素的影响？

在本文中，我们呈现了一项全面的消融研究，旨在解决这些被忽视的方面并增强先前的见解：

架构：LLaVA 架构由一个预训练的 LLM 和一个预训练的视觉编码器组成。与图像编码器相比，LLM 模型规模的扩展在提升性能方面更为有效。而后者的成功更多与其视觉输入配置（分辨率、token 数量）相关，而非模型规模。
视觉表示（Visual Representations）：视觉信号的表示与原始像素空间的分辨率以及特征空间中的 token 数量有关。两者的扩展都会提高性能，特别是在需要视觉细节的任务上。为了在性能和成本之间取得平衡，我们观察到分辨率的扩展比 token 数量的扩展更有效，并推荐使用带有池化的 AnyRes 策略。
训练策略：与之前仅关注视觉指令调优阶段的 LLaVA 系列不同，我们探索了训练策略在 LLaVA 模型早期生命周期中的影响，具体通过改变训练数据量、质量和可训练模块。我们的发现表明，纳入一个专注于从高质量知识中学习的阶段，比使用低质量的网络规模数据更为重要。具体而言，这涉及使用 LLaVA-NeXT-34B 重新标注的合成高质量数据来训练整个模型。

由于目前没有现有的基准（Benchmark）来评估模型的图像详细描述能力，而我们认为这一能力对于模型的发展至关重要。例如，它可以决定模型是否能够作为数据重新标注（re-captioning）任务的高效详细描述生成器。为了满足这一需求，我们构建了两个任务：

图像详细描述任务：我们收集了 100 个英文详细描述实例和 200 个中文详细描述实例，要求模型生成高度详细的描述。我们使用 GPT-4V 来协助评分。
视频详细描述任务：为了评估模型的时间序列详细描述能力，我们参考了 VideoChatGPT 评估并选择了 499 个问题。模型生成详细描述，然后使用 GPT-3.5-Turbo 和真实标签进行比较评分。

1. 架构

LLaVA 由两个预训练模块组成：LLM 和视觉编码器。由于这两个模块分别暴露于大量训练数据和利用计算资源的模型生命周期，它们都能够编码丰富的知识。因此，LMM的扩展行为（在模型大小和数据量方面）可能与从零开始训练的 LLM 有所不同 [1,2,3]，尤其是在仅考虑 LMM 训练阶段，而不考虑 LLM 和视觉编码器成本的情况下。

对于 LMM，我们在之前的文章中展示了更强大的 LLM 能在实际中带来更好的多模态性能，证明了LLaVA-NeXT-110B的显著改进。在本问中，我们系统地研究了模型大小扩展行为。

1.1 语言模型

我们报告了一些有趣的观察结果和对 LMM 实践者有用的建议：

更大的语言模型。多模态性能与语言模型性能密切相关，扩展 LLM 直接在所有基准测试中展示了多模态性能的提升。这表明，开发更强大的语言模型能力能够积累更丰富的语言知识，可能由于跨模态的泛化，轻松提高模型的多模态能力。这可能减少对多模态任务的额外训练需求，而高质量数据可能更难获得。

更低的训练损失。更大的语言模型收敛更快，容易达到更低的损失值。这可能是因为更大的模型具有更强的能力来学习更复杂的模式并存储更丰富的语言知识，从而分别导致更快的收敛和更好的泛化。通常，我们观察到训练曲线可以用来监控学习过程：更低的损失值表示在多个任务上有更好的性能。

学习率调整。更大的语言模型需要更小的学习率，以避免训练动态不稳定的问题。我们观察到，训练曲线中的波动通常意味着性能变差，即使损失值已经收敛到相同的水平。降低学习率可以缓解这个问题。我们以（LLM，视觉）的格式，针对 LLM 和视觉编码器尝试了一系列的学习率组合，包括（2e-5，2e-6），（2e-5，1e-6），（1e-5，2e-6），（1e-5，1e-6），（5e-6，1e-6）和（5e-6，5e-7）。我们发现，视觉编码器的学习率应始终比 LLM 解码器的学习率小 10 倍或 5 倍，以稳定训练。尽管我们没有观察到在将 LLM 的学习率从 2e-5 调整到 5e-7 时损失值的显著差异，但最终在评估基准上的表现却有显著差异。

1.2 视觉编码器

我们在以下实验中考虑使用不同的视觉编码器进行进一步研究。在上表中，我们突出了各种视觉编码器之间的差异。这些差异包括编码器模型大小、分辨率、视觉 token 数量和预训练数据。当将它们集成到 LMM 中时，所需的 LLM 训练时间也有显著差异。

我们得出以下观察结果：

对于 LMM 中的视觉编码器，视觉表示（分辨率、token 数量）和预训练数据比模型大小起着更重要的作用。这是因为视觉表示能够编码更多的视觉细节，而预训练数据则使模型能够编码更多的视觉知识。与对比损失的模型大小相比，扩展效果较小。
作为成本与性能的折衷，SO400M 显示出最显著的优势。其大规模的预训练数据（WEBLI-10B）、高预训练分辨率（384 x 384）以及它能够表达的视觉 token 数量，很可能是其在集成到 LMM 中时表现优越的原因。

2. 视觉表示

2.1 训练时分辨率和 token 数量配置

视觉表示既与原始像素空间中的分辨率有关，也与特征空间中的 token 数量有关。扩展这两者中的任意一个都能提高性能，但也会引入计算开销。本节旨在研究最佳的（分辨率，token 数量）配置，以实现性能与成本的平衡。

之前的 AnyRes 技术采用网格配置 {2x2, 1x{2,3,4}, {2,3,4}x1}，以适应不同分辨率的图像，同时保持数据效率。然而，这种网格配置每张图像最多支持 4 个网格，限制了其在需要更多网格的情况下的能力，例如处理文档数据和长视频。如图（b）所示，对于分辨率高于最大支持分辨率（768x768）的图像，原始 AnyRes 方法将其调整为 768x768。这个调整会导致高分辨率图像的细节丧失。为了解决这个问题，我们探索了更高分辨率的网格配置，如图（a）所示，其中图像被划分为更多的网格。此外，为了保持效率，我们提出了一种阈值双线性插值策略，以防止过多的视觉 token 被输入到 LLM 中。

阈值双线性插值（thresholded bilinear interpolation）。对于具有宽度 a、长度 b 和每个网格的#token T 的网格配置的 AnyRes，总视觉 token 的数量为 L = (a x b +1) x T。在此基础上，我们考虑一个阈值 τ，并在需要时通过双线性插值来减少每个网格的 #token 数量。

我们将 AnyRes 的最大网格数从 2×2 增加到 6×6，以更好地支持更高的分辨率，并观察到增加网格数量可以提高需要读取图像细节的任务的性能，例如 InfoVQA 和 SynDOG（en）。它还改善了 32 帧的视频详细描述性能。这是因为在训练过程中观察到更长的视觉序列，这种能力可以通过 zero-shot 模态迁移来改善视频任务，基于 LLaVA-Next-Video 中的见解。

与增加最大 #token 的成本相比，增加最大分辨率会导致训练时间的轻微增加。在保持最大网格数为 6×6 的情况下，增加最大 #token 可以显著提高 OCR 能力，例如 ChartQA 和 DocVQA。我们建议优先考虑分辨率，而不是 #token，作为丰富视觉表示的更好权衡。

2.2 LLM 扩展的有效性

我们进一步验证了来自新视觉表示的性能提升随着 LLM 规模的扩展而持续存在。这通过观察 InfoVQA、ChartQA、DocVQA、VDD（32 帧）和 SynDOG 上的一致性改进得到了确认。

2.3 放大原始图像

请注意，在我们更高的 AnyRes 方法中，我们并没有直接增加图像分辨率。相反，我们使用支持更高分辨率的网格配置。我们探讨了增加图像分辨率如何影响性能和训练时间。如以下表格所示，增加图像分辨率显著增加了训练时间，但并没有提高性能。

高效策略。对于需要高效率的应用，我们探索了具有成本效益的策略。在以下实验中，我们将每个网格的特征图池化到 t' = 1/4t。这显著降低了训练成本，尽管对高分辨率数据集（如 InfoVQA、ChartQA 和 DocVQA）的性能有较大影响。然而，在其他数据集上的性能要么保持不变，要么仅略有下降。因此，如果需要在低分辨率数据上实现高效率，可以考虑这一设置。

2.4 推理时分辨率和 token 数量配置

我们研究了在推理过程中调整 AnyRes 网格的最大数量和视觉 token 数量对性能指标和推理时间的影响。研究结果表明，在推理期间增加 AnyRes 网格的数量会显著延长推理时间，但性能没有相应的提升。相反，在推理过程中减少 AnyRes 网格的数量会降低性能，特别是在高分辨率数据集上，但对其他数据集的影响可以忽略不计。

值得注意的是，我们的研究揭示了一个引人注目的发现：当推理的 AnyRes 网格最大数量设置为 1x1 时，采用 AnyRes 策略（即向 LLM 输入 (1+1)*729 个视觉 token）比非 AnyRes 策略（仅使用 729 个视觉 token）表现更优。令人有趣的是，尽管这两种策略的推理时间相似，但 AnyRes 策略表现明显更好。这一发现凸显了在推理过程中采用 AnyRes 策略以提升性能的重要性。

2.5 池化方法

我们基于阈值池化策略比较了自适应平均池化和双线性插值作为池化方法的表现。结果表明，在阈值池化策略下，双线性插值比自适应平均池化表现更佳。我们还比较了在投影器之前和之后进行池化的效果，发现投影器之后的池化表现更好。

然后，我们在固定池化率（1/2）下比较了两种池化方法。

在第一行中，最大网格数为 4 x 4 = 16，没有提升分辨率或进行池化。
在第二行中，我们未提升分辨率，而是直接将特征图池化到原始大小的 1/2，性能显著下降。
在第三行中，我们提升了分辨率，使较长边至少达到 2 x 384 = 768。相比第二行，结果有所提升。
接着，我们将最大网格数增加到 6 x 6 = 36，并将较长边至少提升到 4 x 384 = 1536。在第四到第七行中，我们对更多网格数和更高分辨率重复了这一过程。

结果表明，随着网格数量和分辨率的增加，性能显著提高。

3. 训练策略

为了使 LLM 具备多模态能力，我们确定了三项关键功能，并将其系统性地分为三个不同的学习阶段，以进行消融研究。与大多数现有研究一样，先前的 LLaVA 模型主要针对新场景和性能改进探索第二阶段。然而，前两个功能较少被研究，因此成为本部分的主要研究重点。

阶段 1：语言-图像对齐。
阶段 1.5：高质量知识学习。
阶段 2：视觉指令调优。

3.1 语言-图像对齐

我们考虑了两组数据用于将图像特征对齐到文本嵌入空间：

公共数据：包括 BLIP558K、CC3M 和 CC12M。
网络数据：为了避免现有公共数据量的限制，我们从互联网收集了类似规模的多模态图像-文本数据。我们通过质量控制措施对这些数据进行筛选，以匹配公共数据的相似规模（0.6M、3M 和 12M）。

训练良好的投影器（projector）直接用于运行包含视觉指令的全模型调优，结果如下所述：

仅调优投影器时，公共原始数据的扩展效果较差。
使用高质量数据混合效果更好，其次是从同一网络数据集中随机选择的数据混合。

3.2 高质量知识学习

在 LLM 的多模态训练领域，"质量胜于数量" 这一原则尤为重要。这一原则之所以至关重要，是因为预训练的 LLM 和 ViT 已经存储了大量的知识。尽管在 LMM 训练生命周期的最后阶段积累平衡、多样且高质量的指令数据是必不可少的，但一个经常被忽视的方面是，当高质量的新数据可用时，让模型持续接触这些数据以进一步获取知识。我们将这一阶段定义为阶段1.5，专注于高质量知识学习。

训练配置与阶段 2 的设置一致，确保模型能够无缝整合新信息。这种方法承认预训练的 LLM 和 ViT 已经具备大量知识，其目标是通过精心策划的数据进一步优化和增强这些知识。通过优先考虑数据质量，我们可以最大限度地提高计算效率。

为了说明高质量知识的特点，我们选择了以下三大类数据：

重新生成的详细描述数据：LLaVA-NeXT-34B 以其在开源 LMM 中强大的详细描述能力而闻名。我们使用该模型为以下数据集的图像生成新的描述：COCO118K、BLIP558K 和 CC3M。
文档/OCR数据：我们利用了来自 UReader 数据集的文本阅读子集，总计 100K，这些数据可以通过 PDF 渲染轻松获取。我们将这些文本阅读数据与 SynDOG EN/CN 1M 数据集结合使用。
ShareGPT4V中文详细描述数据：我们使用原始的 ShareGPT4V [3] 图像，并利用 Azure API 提供的 GPT-4V 生成详细的中文描述数据，旨在提升模型在中文方面的能力。

该图显示，在阶段 1.5 训练中使用 LLaVA-ReCap 数据（红色圆圈）能带来最显著的性能提升。使用原始描述数据（例如 COCO18K、BLIP558K 和 CC3M）的表现也较为强劲（蓝色圆圈）。同时，我们还包括第 3.1 节的结果（方形标记），其中仅使用原始描述数据（例如 BLIP558K 到 Web 12M）对投影器进行训练。

【注：根据文本内容，上图图例中第二行和第三行的符号（方，圆）放反了】

以下是更详细的消融研究，结合下表可以得出以下结论：

使用重生成数据的性能提升：使用重新生成描述数据（ReCap）数据集训练的模型，在需要详细图像描述和文档理解的任务中表现出显著提升趋势。

重生成的描述数据（从118K到3M）比原始描述数据表现出更好的扩展性，在多项指标中持续提升模型性能。
对于 ReCap 数据，完整模型训练比仅调优投影器更有效，因为需要更大的模型容量来吸收高质量知识。这种方法在 AI2D、DocVQA、ChartQA、InfoVQA 和 ScienceQA 等指标上有显著提升。

新领域知识的引入增强了模型性能：

文档/OCR数据：特别是 UReader 100K 和 SynDOG EN/CN 1M，在理解结构化文本数据方面提供了显著的收益。
ShareGPT4V 中文描述数据：增强了模型理解和处理多语言数据的能力。在多个指标（尤其是 Image-DC 和 CMMU 的中文版本）上的分数显著提高，展示了模型多语言能力的增强。

使用混合数据策略实现平衡改进：

结合高质量重生成数据、文档数据和文本数据（例如 Recap-118K、UReader 100K 和 Evol-Instruct），可以构建一个全面的模型，在多样化任务中表现优异。
尽管总数据量不足 500K，这种高效的混合数据策略在大多数指标上都实现了平衡的提升。这表明，一个全面且多样的知识库对多模态模型的有效性至关重要。

上表展示了与中文相关任务的结果，包括详细描述任务（Detailed Captions）、CMMU，以及OCRBench（其中一些子集与中文评估相关）。

项目页面：https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/

LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?

0. 简介

1. 架构

1.1 语言模型

1.2 视觉编码器

2. 视觉表示

2.1 训练时分辨率和 token 数量配置

2.2 LLM 扩展的有效性

2.3 放大原始图像

2.4 推理时分辨率和 token 数量配置

2.5 池化方法

3. 训练策略

3.1 语言-图像对齐

3.2 高质量知识学习

相关文章：