当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（二十一）

news 来源：原创 2025/8/28 0:09:24

请添加图片描述

EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning

➡️ 论文标题：EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning
➡️ 论文作者：Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang, Ruifeng Xu, Ying Shan, Xihui Liu
➡️ 研究机构: Tencent AI Lab, The University of Hong Kong, ARC Lab, Tencent PCG, University of California, Berkeley, Peng Cheng Laboratory
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理多模态输入方面表现出色，推动了人工通用智能（AGI）的发展。然而，尽管MLLMs在推理和泛化能力上取得了显著进展，但它们在实现人类水平的规划能力方面仍面临挑战。人类水平的规划能力是解决复杂环境中的问题和做出明智决策的关键，而当前的MLLMs在这一方面的能力尚显不足。
➡️ 研究动机：为了评估当前MLLMs在实现人类水平规划方面的能力，研究团队开发了EgoPlan-Bench，这是一个全面的基准测试，旨在从第一人称视角评估MLLMs在现实世界场景中的规划能力。通过这一基准测试，研究团队希望揭示现有MLLMs在规划任务中的表现，并为未来的改进提供方向。
➡️ 方法简介：EgoPlan-Bench利用大规模的第一人称视角视频，设计了一个半自动的数据构建管道，生成了5000个高质量的多选题，每个问题都经过严格的人工验证。这些问题涵盖了真实的任务、多样的行动计划和复杂的视觉观察，旨在全面评估MLLMs的规划能力。
➡️ 实验设计：研究团队在EgoPlan-Bench上评估了28个MLLMs的性能，结果表明这些模型在基准测试中面临显著挑战，尤其是在处理长时任务进展和关键状态变化时。为了进一步提升模型的规划能力，研究团队还构建了一个专门的指令调优数据集EgoPlan-IT，该数据集在提高模型性能方面表现出色。
➡️ 主要贡献：1) 引入了EgoPlan-Bench，一个评估MLLMs在现实世界场景中规划能力的基准测试，涵盖了真实的任务、多样的行动计划和复杂的视觉观察。2) 评估了28个MLLMs的性能，揭示了现有模型在规划任务中的局限性。3) 构建了EgoPlan-IT，一个专门用于提升人类水平规划能力的指令调优数据集。4) 公开了所有代码和数据，并维护了一个基准测试排行榜，以促进未来的研究。

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator

➡️ 论文标题：Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
➡️ 论文作者：Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou
➡️ 研究机构: National University of Singapore, Singapore Management University
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在解决复杂多模态任务方面表现出色，但很少有研究评估这些模型生成视觉指令调优数据的能力。现有的视觉指令数据主要来自人工标注或通过GPT-4等模型生成，这两种方法都存在成本高和数据多样性不足的问题。
➡️ 研究动机：为了探索MLLMs在数据生成方面的潜力，研究团队提出了一种新的数据生成管道Genixer，旨在利用MLLMs独立生成高质量的视觉指令调优数据，而无需依赖GPT-4。通过这种方式，研究团队希望减少数据生成的成本，并提高生成数据的质量和多样性。
➡️ 方法简介：Genixer管道包括四个关键步骤：（i）指令数据收集，（ii）指令模板设计，（iii）增强MLLMs，（iv）数据生成和过滤。研究团队选择了两个代表性的MLLMs，LLaVA1.5和Shikra，分别用于生成通用任务和定位任务的数据。通过精心设计的两层指令模板，Genixer能够生成任务特定和任务无关的数据。
➡️ 实验设计：研究团队在两个公开数据集上进行了实验，包括VQA任务和REC任务。实验设计了不同的任务类型和数据过滤方法，以评估生成数据的质量和多样性。实验结果表明，使用Genixer生成的数据可以显著提高MLLMs在多个多模态基准测试中的性能，并有助于减少模型的幻觉现象。

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

➡️ 论文标题：SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models
➡️ 论文作者：Yuzhou Huang, Liangbin Xie, Xintao Wang, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang, Ying Shan
➡️ 研究机构: 香港中文大学（深圳）、腾讯ARC实验室、澳门大学、腾讯AI实验室、深圳先进技术研究院、上海人工智能实验室、清华大学
➡️ 问题背景：当前基于指令的图像编辑方法（如InstructPix2Pix）在处理复杂场景时表现不佳，主要原因是这些方法依赖于简单的CLIP文本编码器，无法有效理解和推理复杂的指令。例如，当图像中包含多个对象，且指令需要根据特定属性（如位置、相对大小、颜色等）修改其中一个对象时，或需要世界知识来识别要编辑的对象时，现有方法往往无法准确执行。
➡️ 研究动机：为了克服现有基于指令的图像编辑方法在复杂场景中的局限性，研究团队提出了SmartEdit，该方法利用多模态大语言模型（MLLMs）增强模型的理解和推理能力。此外，研究团队还提出了一种双向交互模块（BIM），以促进图像特征和文本特征之间的双向信息交互，进一步提高模型在复杂场景中的表现。
➡️ 方法简介：SmartEdit通过将MLLMs（如LLaVA）集成到基于指令的图像编辑模型中，利用MLLMs强大的推理能力来增强指令理解。为了进一步提高性能，研究团队设计了BIM，该模块通过双向信息交互机制，使图像特征和MLLM输出之间进行更全面的交互。此外，研究团队还提出了一种新的数据利用策略，包括引入感知相关数据（如分割数据）以增强UNet的感知能力，以及合成少量高质量的复杂指令编辑数据以刺激模型的推理能力。
➡️ 实验设计：研究团队在Reason-Edit数据集上进行了实验，该数据集包含219个图像-文本对，专门用于评估基于指令的图像编辑方法在复杂场景中的表现。实验设计了不同的复杂理解场景和推理场景，以全面评估SmartEdit在处理复杂指令时的性能。实验结果表明，SmartEdit在复杂场景中的表现显著优于现有方法。

Honeybee: Locality-enhanced Projector for Multimodal LLM

➡️ 论文标题：Honeybee: Locality-enhanced Projector for Multimodal LLM
➡️ 论文作者：Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh
➡️ 研究机构: Kakao Brain
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理视觉和语言任务方面展现了卓越的能力。然而，视觉投影器（Visual Projector）作为连接视觉编码器和语言模型的关键组件，其设计对MLLMs的性能和效率有着重要影响。当前的视觉投影器设计要么缺乏灵活性，要么在处理局部上下文时表现不佳。
➡️ 研究动机：现有的视觉投影器设计在灵活性和局部上下文保留方面存在不足。为了提高MLLMs的性能和效率，研究团队提出了一种新的局部增强型投影器（Locality-enhanced Projector），旨在同时实现灵活性和局部上下文的保留。
➡️ 方法简介：研究团队提出了两种局部增强型投影器——C-Abstractor和D-Abstractor。C-Abstractor通过卷积操作有效建模局部上下文，而D-Abstractor则通过可变形注意力机制在保持灵活性的同时增强局部上下文的保留。此外，研究团队还提出了一种系统的方法来利用多方面的指令数据集，并优化了指令化过程。
➡️ 实验设计：研究团队在四个多模态大语言模型的基准测试（MME、MMBench、SEED-Bench和LLaVA-Bench）上进行了广泛的实验。实验设计包括对不同数据集的贡献、数据集平衡策略、模板粒度、模板多样性以及多轮模板策略的评估，以全面验证模型的性能和效率。实验结果表明，Honeybee在多个基准测试中显著优于现有的最先进方法。

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model

➡️ 论文标题：Hallucination Augmented Contrastive Learning for Multimodal Large Language Model
➡️ 论文作者：Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang
➡️ 研究机构: 北京大学软件工程国家工程研究中心、阿里巴巴集团
➡️ 问题背景：多模态大型语言模型（MLLMs）在整合自然语言与视觉信息处理多模态任务方面表现出色。然而，这些模型在生成信息时存在产生错误或虚构信息（即幻觉）的问题。本文从表示学习的角度出发，分析了文本和视觉标记在MLLM中的表示分布，揭示了文本和视觉表示之间的显著差距，以及包含和不包含幻觉的文本表示的纠缠问题。
➡️ 研究动机：现有的研究已经揭示了MLLMs在生成信息时容易产生幻觉的问题。为了进一步理解这一问题，并探索其背后的原因，研究团队通过引入对比学习和使用幻觉文本作为困难负样本，提出了一种新的方法，旨在减少幻觉的发生并提高模型的性能。
➡️ 方法简介：研究团队提出了一种名为幻觉增强跨模态对比学习（HACL）的方法，通过将幻觉文本作为困难负样本引入对比学习，自然地将非幻觉文本和视觉样本的表示拉近，同时将非幻觉和幻觉文本的表示推开。具体来说，研究团队分别将视觉和文本标记序列输入到大型语言模型中，以获得每个模态的全局表示，用于对比学习。幻觉文本由GPT-4生成，这些文本包含部分对象属性错误或引入额外的不存在信息。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括MMhal-Bench和POPE，以评估HACL方法在减少幻觉发生和提高模型性能方面的有效性。实验结果表明，HACL方法不仅显著减少了幻觉的发生，还在多个基准测试中提高了模型的性能。例如，在MMhal-Bench基准测试中，LLaVA-HACL相比基线模型LLaVA的总体得分提高了29%，在MME基准测试中提高了11%。

EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning

Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

Honeybee: Locality-enhanced Projector for Multimodal LLM

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model

相关文章：