当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（八十六）

news 来源：原创 2025/9/2 18:42:42

在这里插入图片描述

EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models

➡️ 论文标题：EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models
➡️ 论文作者：Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang, Hao Li
➡️ 研究机构: Fudan University、Shanghai Academy of AI for Science、Carnegie Mellon University
➡️ 问题背景：尽管文本到图像生成模型（Text-to-Image Generative Models）取得了显著进展，但该领域缺乏能够准确反映模型性能的评估指标，特别是缺乏能够指导模型优化的细粒度指标。现有的评估方法主要基于预训练模型，这些模型通常是在真实图像上训练的，但用于评估合成图像时表现不佳，存在数据偏差问题。
➡️ 研究动机：为了解决现有评估方法在合成图像评估中的不足，研究团队提出了EVALALIGN，这是一种新的评估指标，旨在通过细粒度的人类反馈数据对多模态大语言模型（MLLMs）进行监督微调（SFT），以实现与人类评估偏好的一致性。EVALALIGN不仅提供了更高的评估准确性，还能有效指导模型的优化方向。
➡️ 方法简介：研究团队构建了一个详细的、细粒度的人类反馈数据集，该数据集包含对合成图像的11项技能的评估，涵盖图像保真度和文本-图像对齐两个方面。通过监督微调（SFT），MLLMs被训练以与人类评估偏好对齐，从而能够准确评估合成图像的生成质量。
➡️ 实验设计：研究团队使用8种最先进的文本到图像生成模型生成了24,000张图像，并对这些图像进行了详细的多轮人工标注。标注内容包括图像中对象的识别、颜色、数量、空间关系等。通过这些标注数据，研究团队对MLLM进行了监督微调，并在24种文本到图像生成模型上进行了评估。实验结果表明，EVALALIGN在评估模型性能方面优于现有的评估方法，特别是在细粒度评估和与人类偏好一致性方面表现突出。

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

➡️ 论文标题：Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
➡️ 论文作者：Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Ziteng Wang, Rob Fergus, Yann LeCun, Saining Xie
➡️ 研究机构: New York University
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在多种任务中展现了强大的能力，但视觉组件的设计往往不足，且与视觉表示学习研究脱节。这种差距阻碍了在现实世界场景中实现准确的感官基础。研究团队通过使用LLMs和视觉指令调优作为接口，评估了各种视觉表示，提供了对不同模型和架构的新见解。
➡️ 研究动机：现有的多模态学习研究存在两个潜在问题：1) 过早地过度依赖语言可能成为捷径，补偿了学习有效视觉表示的不足；2) 现有基准可能无法为需要视觉基础的现实世界场景提供足够的指导。这些问题在某些具有挑战性的现实世界应用中尤为明显，尽管在提高一般能力方面取得了显著进展。
➡️ 方法简介：研究团队提出了Cambrian-1，这是一个以视觉为中心的多模态LLM系列。通过使用MLLM指令调优作为评估各种视觉表示的协议，研究团队系统地评估了不同视觉编码器及其组合对MLLM性能的影响。此外，团队还设计了一种新的动态和空间感知连接器（Spatial Vision Aggregator, SVA），以减少视觉令牌的数量，同时处理高分辨率图像。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括视觉-语言感知（Vision-Language Perception, VLP）和图像到图像（Image-to-Image, I2I）任务。实验设计了不同的视觉编码器、连接器设计、指令调优数据和基准测试，以全面评估模型在不同条件下的表现。团队还引入了一个新的视觉中心基准（CV-Bench），通过将传统视觉基准转换为VQA格式，更好地评估视觉表示。

MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs

➡️ 论文标题：MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs
➡️ 论文作者：Wenqian Ye, Guangtao Zheng, Yunsheng Ma, Xu Cao, Bolin Lai, James M. Rehg, Aidong Zhang
➡️ 研究机构: University of Virginia、Purdue University、University of Illinois Urbana-Champaign、Georgia Institute of Technology
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在联合视觉-语言理解任务中表现出色，但其鲁棒性问题，尤其是虚假偏差（spurious biases）的影响，尚未得到充分探索。虚假偏差是指模型倾向于利用输入属性与目标变量之间的虚假相关性进行预测，这在单模态模型中已显示出严重的鲁棒性问题。然而，多模态模型中是否存在类似的虚假偏差，以及这些偏差对模型性能的影响程度，仍需进一步研究。
➡️ 研究动机：为了填补这一研究空白，研究团队分析了多模态设置中的虚假偏差，揭示了特定测试数据模式如何在视觉模型的偏差传递到视觉和文本标记之间的对齐时表现出来。通过引入MM-SPUBENCH，一个全面的视觉问答（VQA）基准，研究团队旨在评估MLLMs对九种不同类型的虚假相关性的依赖程度，从而为未来的鲁棒性研究提供支持。
➡️ 方法简介：研究团队提出了一种基于属性的自动VQA构建方法，通过理论分析MLLMs中的虚假偏差，构建了包含10,773张图像和2,400个VQA问题的基准。这些VQA问题涵盖了九种不同类型的虚假相关性，旨在系统地评估MLLMs在处理视觉和语言模态中的虚假相关性时的表现。
➡️ 实验设计：研究团队在五个开源图像数据集上进行了实验，设计了不同类型的虚假相关性（如背景、纹理、共现对象等），以评估MLLMs在不同条件下的表现。通过这些实验，研究团队揭示了当前MLLMs在处理虚假相关性时的局限性，并强调了改进模态对齐技术的紧迫性。

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

➡️ 论文标题：Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
➡️ 论文作者：Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee
➡️ 研究机构: 电子科技大学、新加坡科技设计大学、同济大学、新加坡国立大学
➡️ 问题背景：大型语言模型（LLMs）在文本数学问题解决方面展现了卓越的推理能力。然而，现有的开源图像指令微调数据集包含的每张图像的问题-答案对有限，未能充分利用视觉信息来增强多模态语言模型（MLLMs）的多模态数学推理能力。
➡️ 研究动机：为了弥补这一差距，研究团队收集了40,000张高质量图像及其对应的问题-答案对，这些图像和问题涵盖了代数、算术、几何、逻辑、数值常识、科学和视觉问答等多个领域。此外，研究团队提出了一种数据合成管道，基于40,000张图像和种子问题合成了320,000个新的问题-答案对，创建了MathV360K数据集，显著扩展了多模态数学推理的覆盖范围。
➡️ 方法简介：研究团队使用MathV360K数据集对LLaVA-1.5模型进行了微调，开发了Math-LLaVA模型。该模型在MathVista的minitest分割上实现了19%的性能提升，并在Math-V和MathVerse上取得了领先性能。此外，Math-LLaVA在MMMU基准测试中也展示了增强的泛化能力。
➡️ 实验设计：研究团队在MathVista、Math-V、MathVerse和MMMU等多个基准数据集上进行了实验，评估了Math-LLaVA在不同任务类型和难度下的表现。实验设计了多种数据增强方法，包括生成更复杂的问题、逻辑一致的问题和简化的问题，以全面评估模型的推理能力和鲁棒性。

Tell Me Where You Are: Multimodal LLMs Meet Place Recognition

➡️ 论文标题：Tell Me Where You Are: Multimodal LLMs Meet Place Recognition
➡️ 论文作者：Zonglin Lyu, Juexiao Zhang, Mingxuan Lu, Yiming Li, Chen Feng
➡️ 研究机构: New York University
➡️ 问题背景：视觉位置识别（Visual Place Recognition, VPR）是机器人技术中的一个长期挑战，主要任务是基于视觉输入准确识别之前访问过的位置。现有的VPR方法主要集中在视觉表示学习上，通过改进视觉特征的鲁棒性来应对光照、天气和临时物体等无关变化。然而，大型语言模型（LLMs）在推理和常识理解方面表现出色，但其在VPR中的应用尚未得到充分探索。
➡️ 研究动机：研究团队旨在探索如何将多模态大型语言模型（Multimodal LLMs, MLLMs）与视觉位置识别结合，以提高VPR的性能。通过利用视觉基础模型（Vision Foundation Models, VFMs）提供的通用视觉特征和MLLMs的推理能力，研究团队希望在不进行VPR特定监督训练的情况下，提供一个有效的VPR解决方案。
➡️ 方法简介：研究团队提出了一种视觉到语言（vision-to-language）的框架，首先使用视觉基础模型进行粗略检索，生成多个候选位置，然后利用多模态大型语言模型进行精细选择。具体来说，使用预训练的视觉基础模型DINOv2提取鲁棒的视觉特征，生成候选位置；然后使用多模态大型语言模型GPT-4V描述每个候选位置与当前观察之间的差异，并基于这些描述进行最终的推理，确定最佳候选位置。
➡️ 实验设计：研究团队在三个公开数据集上进行了实验，包括Tokyo247、Baidu Mall和Pittsburgh30K。实验评估了不同方法在不同场景下的性能，包括室内、街道视图和驾驶场景。实验结果表明，该方法在多个指标上优于仅基于视觉的方法，并且在某些情况下与监督方法的性能相当。

EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

Tell Me Where You Are: Multimodal LLMs Meet Place Recognition

相关文章：