当前位置：首页 > news >正文

【AI论文】通过R1-Zero类似训练改进视觉空间推理

news 来源：原创 2025/9/6 12:09:27

摘要：人们越来越关注提升多模态大型语言模型（MLLMs）的推理能力。作为在物理领域中运作的人工智能代理的基石，基于视频的视觉空间智能（VSI）成为MLLMs最为关键的推理能力之一。本研究首次深入探讨了通过R1-Zero类训练提升MLLMs视觉空间推理能力的方法。技术上，我们首先发现，通过思维链（Chain of Thought, CoT）提示无法激活中小型Qwen2-VL模型的视觉空间推理能力。随后，我们借鉴DeepSeek-R1-Zero的方法，利用精心策划的VSI-100k数据集，引入GRPO训练以提升视觉空间推理能力。在研究过程中，我们认识到在GRPO中保持KL惩罚（即使值很小）的必要性。仅用120个GPU小时，我们从Qwen2-VL-2B微调得到的vsGRPO-2B模型，性能即可超越基础模型12.1%，并超越GPT-4o。此外，我们从Qwen2-VL-7B微调得到的vsGRPO-7B模型，性能可与最佳开源模型LLaVA-NeXT-Video-72B相媲美。此外，我们将vsGRPO与监督微调和直接偏好优化基线进行比较，观察到其性能优势显著。代码和数据集将很快提供。Huggingface链接：Paper page，论文链接：2504.00883

研究背景和目的

研究背景

随着人工智能技术的快速发展，多模态大型语言模型（MLLMs）逐渐成为研究和应用的热点。这类模型能够处理文本、图像和视频等多种模态的输入，并输出文本响应，为多种应用提供了强大的基础，如多模态理解、视觉语言代理、自动驾驶等。然而，尽管MLLMs在多模态理解方面取得了显著进展，但在处理复杂的视觉空间推理任务时仍面临挑战。视觉空间推理能力，特别是基于视频的视觉空间智能（VSI），是MLLMs在物理世界中运作的基石，对于实现更高级别的认知能力和决策制定至关重要。

当前，现有的MLLMs在视觉空间推理任务上的表现往往不尽如人意。这主要是由于这些模型在训练过程中缺乏针对视觉空间推理能力的专门优化，导致它们在处理需要深度理解和空间感知的任务时存在局限。此外，尽管思维链（Chain of Thought, CoT）提示等技术在提升语言模型推理能力方面取得了一定成效，但对于中小型MLLMs来说，这些方法在激活其视觉空间推理能力方面效果有限。

为了应对这些挑战，本研究聚焦于通过特定的训练策略来提升MLLMs的视觉空间推理能力。我们选择了Qwen2-VL模型作为基础模型，这是因为它在视觉语言任务中表现出了良好的性能，但在视觉空间推理方面仍有提升空间。通过深入分析Qwen2-VL模型在视觉空间推理任务上的表现，我们旨在找到一种有效的训练方法来显著提升其视觉空间推理能力。

研究目的

本研究的主要目的是通过R1-Zero类训练方法来改进MLLMs的视觉空间推理能力。具体目标包括：

评估现有方法：首先，我们评估了CoT提示等现有技术在激活Qwen2-VL模型视觉空间推理能力方面的效果，并发现这些方法对于中小型模型来说效果有限。
引入新训练方法：鉴于现有方法的局限性，我们引入了GRPO（Group Relative Policy Optimization）训练方法，旨在通过强化学习的方式提升模型的视觉空间推理能力。
构建专门数据集：为了支持GRPO训练，我们精心策划了VSI-100k数据集，该数据集包含了大量基于视频的视觉空间推理任务，为模型的训练提供了丰富的高质量数据。
验证方法有效性：通过对比实验，我们验证了GRPO训练方法在提升Qwen2-VL模型视觉空间推理能力方面的有效性，并展示了其相对于其他训练方法的优越性。
推动模型应用：最终，我们希望通过改进Qwen2-VL模型的视觉空间推理能力，推动其在自动驾驶、机器人导航等实际应用场景中的落地应用。

研究方法

数据集构建

为了支持本研究中的GRPO训练，我们精心策划了VSI-100k数据集。该数据集包含了超过100,000个样本，每个样本都是一个基于视频的视觉空间推理任务。我们通过以下步骤构建了该数据集：

数据收集：我们利用ScanNet等公开数据集获取了高保真度的视频扫描数据，这些数据包含了详细的物体级3D标注信息。
问题生成：基于收集到的视频扫描数据和3D标注信息，我们生成了大量与空间信息相关的问题和答案对。这些问题涵盖了对象计数、绝对距离测量、对象大小评估、房间大小评估、相对距离、相对方向、路线规划和外观顺序等多个方面。
质量控制：为了确保数据集的质量，我们对生成的问题和答案对进行了严格的审核和筛选，去除了重复、模糊或错误的数据。

模型训练

在模型训练方面，我们采用了GRPO训练方法。GRPO是一种强化学习方法，它消除了传统强化学习中的评论家模型，从而降低了训练成本。具体训练过程如下：

策略模型采样：对于每个问题，我们从策略模型πθold中采样一组输出集合{o1, o2, ..., oG}。
优势函数计算：我们利用组奖励{r1, r2, ..., rG}计算优势函数Ai，该函数用于衡量每个输出相对于平均输出的优势。
KL惩罚：为了避免模型在训练过程中偏离初始点太远，我们引入了KL惩罚项DKL(πθ∥πref)，其中πref是参考策略模型。
策略更新：最后，我们利用优势函数和KL惩罚项来更新策略模型πθ，以最大化期望奖励。

在训练过程中，我们还采用了多种奖励函数来引导模型的训练方向。这些奖励函数包括格式奖励和准确性奖励等。格式奖励用于衡量模型的输出是否符合指定的格式要求，而准确性奖励则用于衡量模型的输出与真实答案之间的相似度。

模型评估

为了评估训练后的模型性能，我们在VSI-bench等基准测试集上进行了全面的实验。具体评估指标包括平均对象计数、绝对距离测量、对象大小评估、房间大小评估、相对距离、相对方向、路线规划和外观顺序等多个方面的准确率。此外，我们还采用了不同的提示策略（如Think-mode、Observe-mode和Vanilla-mode）来测试模型的泛化能力。

研究结果

主要结果

通过GRPO训练，我们成功提升了Qwen2-VL模型的视觉空间推理能力。具体结果如下：

性能提升：对于基于Qwen2-VL-2B的vsGRPO-2B模型，其在VSI-bench上的性能相对于基础模型提升了12.1%，并超越了GPT-4o等先进模型。对于基于Qwen2-VL-7B的vsGRPO-7B模型，其性能则与最佳开源模型LLaVA-NeXT-Video-72B相当。
泛化能力：通过采用不同的提示策略进行测试，我们发现训练后的模型在未见过的任务上也表现出了良好的泛化能力。这表明GRPO训练不仅提升了模型的特定任务性能，还增强了其整体推理能力。
奖励函数分析：在训练过程中，我们观察到格式奖励和准确性奖励对模型的性能提升起到了重要作用。特别是准确性奖励，在训练后期对模型性能的进一步提升起到了关键作用。

KL惩罚的重要性

在GRPO训练过程中，我们发现保持KL惩罚（即使值很小）对于稳定训练过程至关重要。如果没有KL惩罚项，模型在训练过程中很容易偏离初始点太远，导致训练崩溃。通过引入KL惩罚项，我们能够有效地避免这种情况的发生，从而确保了训练的稳定性和有效性。

与其他方法的比较

我们还将GRPO训练方法与监督微调和直接偏好优化等基线方法进行了比较。实验结果表明，GRPO训练方法在提升模型视觉空间推理能力方面表现出了显著的优势。具体来说，GRPO训练后的模型在VSI-bench上的性能优于监督微调和直接偏好优化后的模型。

研究局限

尽管本研究在提升MLLMs视觉空间推理能力方面取得了一定成果，但仍存在一些局限性：

数据集规模：尽管我们构建了VSI-100k数据集来支持模型的训练，但该数据集的规模仍相对有限。未来可以考虑进一步扩大数据集的规模，以包含更多样化的视觉空间推理任务。
模型选择：本研究选择了Qwen2-VL模型作为基础模型。虽然该模型在视觉语言任务中表现良好，但在处理更复杂的视觉空间推理任务时仍可能存在局限。未来可以考虑探索其他类型的MLLMs，以进一步验证GRPO训练方法的普适性。
奖励函数设计：在训练过程中，我们采用了格式奖励和准确性奖励等函数来引导模型的训练方向。然而，这些奖励函数可能无法完全捕捉到视觉空间推理任务中的所有关键要素。未来可以考虑设计更精细的奖励函数来更好地指导模型的训练过程。
计算资源需求：GRPO训练方法需要较多的计算资源来支持模型的训练过程。尽管本研究在有限的计算资源下取得了不错的成果，但未来可以考虑进一步优化算法以降低计算资源需求。

未来研究方向

针对本研究的局限性，未来可以考虑以下研究方向：

扩大数据集规模：通过收集更多样化的视频扫描数据和生成更多样化的视觉空间推理任务来扩大数据集的规模。这将有助于提升模型的泛化能力和处理更复杂任务的能力。
探索其他模型架构：除了Qwen2-VL模型外，还可以探索其他类型的MLLMs（如BERT、GPT等）作为基础模型来验证GRPO训练方法的普适性。这将有助于我们更全面地了解GRPO训练方法在不同模型架构上的表现。
设计更精细的奖励函数：通过深入分析视觉空间推理任务的特点和要求来设计更精细的奖励函数。这将有助于更好地引导模型的训练过程并提升其在视觉空间推理任务上的表现。
优化算法降低计算资源需求：通过优化GRPO训练算法来降低其对计算资源的需求。例如，可以采用更高效的优化算法或并行计算技术来加速模型的训练过程。这将有助于使GRPO训练方法更易于在实际应用中推广和使用。

此外，未来还可以考虑将GRPO训练方法与其他先进技术相结合来进一步提升MLLMs的视觉空间推理能力。例如，可以将GRPO训练与迁移学习、多任务学习等技术相结合来利用其他相关任务的知识来辅助模型的训练过程。这将有助于提升模型的性能和泛化能力，并推动其在更多实际应用场景中的落地应用。