当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（六十八）

news 来源：原创 2025/7/24 1:42:11

请添加图片描述

Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models

➡️ 论文标题：Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models
➡️ 论文作者：Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang
➡️ 研究机构: Westlake University、City University of Hong Kong、Johns Hopkins University
➡️ 问题背景：近年来，链式思维（Chain-of-Thought, CoT）及其相关基于推理的工作显著提升了大型语言模型（LLMs）在复杂推理任务中的表现。随着多模态大型语言模型（MLLMs）的发展，增强其处理复杂多模态推理问题的能力成为关键前沿。然而，将多模态推理融入CoT尚未得到充分研究。研究团队提出了一种名为“思维图像”（Image-of-Thought, IoT）的提示方法，旨在帮助MLLMs逐步提取视觉推理依据，从而提高其在复杂视觉推理任务中的表现。
➡️ 研究动机：现有的研究主要集中在通过文本推理来增强模型的推理能力，但这种方法在处理多模态数据时既不直观也不直接。为了克服这一局限，研究团队开发了IoT提示方法，该方法不仅能够自动设计关键视觉信息提取操作，还能通过逐步识别特定的视觉推理依据来支持对复杂视觉推理问题的回答。IoT提示方法通过同时利用视觉和文本推理，帮助MLLMs更好地理解复杂的多模态信息，从而提高其在零样本视觉理解任务中的表现。
➡️ 方法简介：IoT提示方法的核心在于使MLLMs能够直接与图像进行交互，通过逐步推理过程将决策更牢固地建立在视觉现实上，而不仅仅是文本解释。具体来说，IoT提示方法使MLLMs能够设计视觉和文本步骤，引导模型利用外部图像处理工具生成多模态推理系列。这些推理系列随后帮助MLLMs得出答案，确保每一步推理都基于文本和视觉推理的结合，从而减少幻觉现象并降低对文本偏见的依赖。
➡️ 实验设计：研究团队在三个公开数据集上进行了实验，包括视觉问答（Visual Question-Answering, VQA）任务。实验设计了不同的任务和数据集，以评估IoT提示方法在减少传统多模态CoT方法错误方面的有效性。实验结果表明，IoT提示方法不仅提高了模型在视觉问答任务中的准确性，还增强了模型的解释性和透明度。此外，IoT方法的无训练特性消除了其他模型通常需要的昂贵和耗时的微调过程，从而进一步提高了MLLMs的推理能力和解释性。

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

➡️ 论文标题：AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
➡️ 论文作者：Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
➡️ 研究机构: 南京大学
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在探索人工通用智能（AGI）方面被认为是关键的一步。这些模型的核心在于实现跨模态对齐。然而，当前的MLLMs在预训练阶段通常假设所有图像-文本对都是均匀对齐的，而在实际中，不同图像-文本对的对齐程度是不一致的。此外，不同的任务对对齐能力的需求也不同，但现有的MLLMs忽视了这些差异化的对齐需求。
➡️ 研究动机：为了提高MLLMs的对齐能力，研究团队提出了一个新的多模态大语言模型AlignGPT。该模型在预训练阶段通过将图像-文本对分为不同的对齐级别组，使模型能够学习不同对齐级别的表示。在指令调优阶段，模型能够动态地结合这些表示，以满足不同任务的对齐需求。
➡️ 方法简介：研究团队提出了一种新的对齐策略，该策略在预训练阶段学习不同对齐级别，然后在指令调优阶段动态结合这些对齐级别，以满足不同任务的对齐需求。具体来说，通过CLIP分数将图像-文本对分为不同的对齐级别组，并在预训练过程中使用这些组标签作为控制信号。在指令调优阶段，通过门控网络动态分配全局和局部对齐嵌入的权重，以适应不同任务的对齐需求。
➡️ 实验设计：研究团队在12个基准数据集上进行了广泛的实验，包括视觉问答（VQA）、视觉推理（GQA）、视觉问答（VisWiz）、科学问答（SQAI）、文本VQA（TextVQA）等任务。实验结果表明，AlignGPT在多个基准测试中表现出竞争力，特别是在多模态指令跟随任务中。

From Text to Pixel: Advancing Long-Context Understanding in MLLMs

➡️ 论文标题：From Text to Pixel: Advancing Long-Context Understanding in MLLMs
➡️ 论文作者：Yujie Lu, Xiujun Li, Tsu-Jui Fu, Miguel Eckstein, William Yang Wang
➡️ 研究机构: University of California, Santa Barbara、University of Washington
➡️ 问题背景：多模态大语言模型（MLLMs）在处理和理解复杂的视觉和文本信息方面取得了显著进展。然而，处理多个图像和大量文本上下文仍然是一个挑战，因为这些模型在处理长输入序列时效率低下。本文提出了SEEKER，一种旨在通过将文本压缩到视觉像素空间来优化长文本紧凑编码的多模态大语言模型，从而在固定令牌长度预算内高效处理长文本。
➡️ 研究动机：现有的多模态大语言模型在处理长上下文任务时存在局限性，尤其是在处理多图像输入和生成长文本输出方面。SEEKER通过将文本压缩到视觉像素空间，减少了处理相同语义信息所需的令牌数量，从而提高了模型在处理长上下文任务时的效率和性能。
➡️ 方法简介：SEEKER通过将文本转换为图像令牌，利用图像令牌的紧凑表示来处理长文本，从而在固定令牌长度预算内处理更多的上下文信息。该方法在六个长上下文多模态任务中进行了评估，结果表明SEEKER在处理长文本输入和生成长文本输出方面优于现有的专有和开源MLLMs。
➡️ 实验设计：实验在六个长上下文多模态任务上进行，包括长形式多图像输入和长形式文本输出任务。实验设计了不同类型的输入（如单个图像、多个图像、长文本输入）和输出（如长文本输出），以全面评估SEEKER在不同条件下的表现。实验结果表明，SEEKER在处理长上下文任务时表现出色，尤其是在处理多图像输入和生成长文本输出方面。

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception

➡️ 论文标题：Explaining Multi-modal Large Language Models by Analyzing their Vision Perception
➡️ 论文作者：Loris Giulivi, Giacomo Boracchi
➡️ 研究机构: Politecnico di Milano
➡️ 问题背景：多模态大型语言模型（MLLMs）在理解和生成跨模态内容方面展示了卓越的能力，如图像和文本。然而，这些模型的可解释性仍然是一个挑战，这阻碍了它们在关键应用中的采用。研究指出，MLLMs在处理图像和文本输入时，存在显著的偏见和幻觉问题，这进一步突显了对MLLMs解释的迫切需求。
➡️ 研究动机：为了提高MLLMs的可解释性，研究团队提出了一种新的方法，通过结合开放世界定位模型（OWL-ViT）和多模态大型语言模型（MLLMs），创建了一个新的架构，能够同时从同一视觉嵌入中生成文本和对象定位输出。该架构不仅增强了模型的可解释性，还能够设计新的显著性图来解释任何输出标记，识别模型幻觉，并通过语义对抗性扰动评估模型偏见。
➡️ 方法简介：研究团队构建了一个联合开放世界定位（OWL）和多模态大型语言模型（MLLM）的架构（J），通过将OWL-ViT的视觉编码器与LLaVa的语言模型结合，并训练一个对齐的多层感知机（MLP）W，使得模型能够从同一视觉嵌入中同时生成文本和边界框输出。通过分析这些输出的梯度，研究团队开发了一种新的显著性图方法（Gradient Alignment, GA），用于解释MLLM的输出，并设计了语义对抗性攻击来评估模型的偏见。
➡️ 实验设计：研究团队在多个数据集上进行了实验，包括COCO数据集，以验证模型J的性能。实验包括评估对齐层W的性能、检测模型幻觉、验证GA显著性图的有效性，以及评估模型的偏见倾向。实验结果表明，模型J在保持良好视觉理解能力的同时，能够有效检测幻觉，并通过显著性图和语义对抗性攻击提供对模型输出的深入解释。

V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM

➡️ 论文标题：V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM
➡️ 论文作者：Abdur Rahman, Rajat Chawla, Muskaan Kumar, Arkajit Datta, Adarsh Jha, Mukunda NS, Ishaan Bhola
➡️ 研究机构: SuperAGI Research
➡️ 问题背景：尽管多模态大语言模型（MLLMs）在处理文本和图像等多模态信息方面取得了显著进展，但在图形用户界面（GUI）的理解和自动化任务中仍面临挑战。现有的模型和基准主要集中在文本任务上，忽视了视觉信息在问题解决中的重要性。特别是在GUI自动化任务中，模型需要能够准确地检测和定位GUI元素，这要求模型具备高效和精确的视觉-文本对齐能力。
➡️ 研究动机：为了克服现有模型在GUI自动化任务中的局限性，研究团队开发了V-Zen，一个专门设计用于高效GUI理解和任务预测的多模态大语言模型。V-Zen通过引入双分辨率图像编码器和高精度视觉定位模块，显著提高了模型在GUI任务中的性能。
➡️ 方法简介：V-Zen的架构包括五个主要模块：低分辨率视觉特征提取器（LRVFE）、多模态投影适配器（MPA）、预训练语言模型与视觉专家（PLMVE）、高分辨率交叉视觉模块（HRCVM）和高精度视觉定位模块（HPVGM）。这些模块协同工作，使V-Zen能够高效处理图像和文本输入，准确识别GUI元素，并执行相应的任务。
➡️ 实验设计：研究团队使用GUIDE数据集对V-Zen进行了训练和评估。GUIDE数据集包含124,000个数据点，涵盖了多种GUI环境和任务序列。实验评估了V-Zen在两个关键任务上的表现：下一步任务预测和定位。结果表明，V-Zen在下一步任务预测任务中达到了93.2%的准确率，在定位任务中达到了89.7%的准确率，显著优于其他现有模型。

Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

From Text to Pixel: Advancing Long-Context Understanding in MLLMs

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception

V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM

相关文章：