当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（三十五）

news 来源：原创 2025/7/19 1:54:59

在这里插入图片描述

On the Out-Of-Distribution Generalization of Multimodal Large Language Models

➡️ 论文标题：On the Out-Of-Distribution Generalization of Multimodal Large Language Models
➡️ 论文作者：Xingxuan Zhang, Jiansheng Li, Wenjing Chu, Junjia Hai, Renzhe Xu, Yuqing Yang, Shikai Guan, Jiazheng Xu, Peng Cui
➡️ 研究机构: Tsinghua University、Beijing Jiaotong University
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在多种生成任务中展现了卓越的能力，尤其是在视觉-语言感知（Vision-Language Perception, VLP）和图像到图像（Image-to-Image, I2I）任务中。然而，研究发现，这些模型在处理超出其训练数据分布的领域特定任务时，表现出了显著的泛化能力不足，尤其是在医疗和分子图像数据上。
➡️ 研究动机：尽管MLLMs在处理常见对象识别任务时表现出色，但它们在处理特定领域任务时的泛化能力有限。为了进一步理解这些模型在特定领域任务中的表现不佳的原因，并探索提高其泛化能力的方法，研究团队对MLLMs在不同分布偏移和领域特定任务中的零样本泛化能力进行了全面评估。
➡️ 方法简介：研究团队通过构建一系列合成图像、自然分布偏移和领域特定数据集（如医疗和分子图像数据集），评估了14种当前最先进的MLLMs在不同数据分布下的零样本泛化能力。此外，研究团队还分析了模型在特定领域任务中表现不佳的三个潜在原因：语义误解、视觉特征提取不足和映射缺陷。
➡️ 实验设计：实验在20个数据集上进行，包括合成图像、自然分布偏移和领域特定数据集。实验设计了不同类型的分布偏移（如合成图像、自然分布偏移和领域特定数据集），以及不同类型的领域特定任务（如医疗和分子图像识别），以全面评估模型在不同条件下的泛化能力。研究团队还探讨了上下文学习（In-Context Learning, ICL）在提高模型泛化能力方面的潜力，特别是在处理领域特定任务时。

Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs

➡️ 论文标题：Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs
➡️ 论文作者：Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, Weisi Lin
➡️ 研究机构: 上海交通大学、南洋理工大学
➡️ 问题背景：多模态大语言模型（MLLMs）在计算机视觉领域取得了显著进展，但其在低级视觉感知和理解方面的能力仍缺乏系统评估。低级视觉能力在图像质量评估（IQA）、感知视觉失真（如噪声、模糊）和其他低级属性（如色彩、光照、构图、风格等）中扮演着重要角色，这些能力与自然照片的美学以及人类对新兴计算机图形生成或AI生成图像的偏好密切相关。
➡️ 研究动机：为了填补这一空白，研究团队提出了Q-Bench+，这是首个系统评估MLLMs在低级视觉任务上的能力的基准。Q-Bench+旨在评估MLLMs在低级视觉感知、描述和评估方面的能力，以模拟人类在这些任务中的表现。
➡️ 方法简介：研究团队构建了三个基准数据集：LLVisionQA+、LLDescribe+和IQA Benchmark。LLVisionQA+包含2,990张单张图像和1,999对图像，用于评估MLLMs在低级视觉感知任务中的表现；LLDescribe+包含499张单张图像和450对图像，用于评估MLLMs在低级视觉描述任务中的表现；IQA Benchmark则利用现有的IQA数据库来评估MLLMs在图像质量评估任务中的表现。
➡️ 实验设计：实验设计了多种低级视觉属性（如清晰度、亮度、色彩等）的评估任务，包括单张图像和图像对的感知任务、描述任务以及评估任务。实验还设计了不同类型的低级视觉问题（如Yes-or-No问题、What问题、How问题），以全面评估MLLMs在不同条件下的表现。此外，研究团队还提出了一种基于softmax的策略，用于提取MLLMs的量化质量评分，并通过prompt-ensemble方法进一步提升MLLMs在IQA任务中的表现。

Exploring Perceptual Limitation of Multimodal Large Language Models

➡️ 论文标题：Exploring Perceptual Limitation of Multimodal Large Language Models
➡️ 论文作者：Jiarui Zhang, Jinyi Hu, Mahyar Khayatkhoei, Filip Ilievski, Maosong Sun
➡️ 研究机构: University of Southern California, Tsinghua University, Vrije Universiteit Amsterdam
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在回答视觉问题方面展现了显著的能力。然而，这些模型在识别图像中的小物体时存在明显的局限性，尤其是在处理小文本描述等细节时。尽管提高输入图像的分辨率可以增强模型的响应准确性，但这种局限性的具体程度及其背后的原因尚未得到系统性的研究。
➡️ 研究动机：现有的研究已经提供了关于MLLMs对物体大小敏感性的轶事证据，但这种现象及其根本原因尚未得到全面探索。为了填补这一空白，研究团队对几种最先进的MLLMs进行了定量研究，旨在揭示这些模型在处理小物体时的普遍局限性，并识别影响这种局限性的各种视觉因素。
➡️ 方法简介：研究团队通过在两个常见的视觉问答数据集GQA和TextVQA上进行实验，评估了七种最先进的MLLMs在处理不同大小目标物体时的性能。实验中，根据目标物体的相对大小将数据集分为五个等级，观察模型性能随物体大小变化的趋势。此外，研究团队还系统地分析了四个影响MLLMs识别小物体能力的因素：物体质量、物体大小、干扰物体和物体位置。
➡️ 实验设计：实验设计了不同因素的变化，包括物体质量（采样率）、物体大小、干扰物体的数量和物体位置，以全面评估MLLMs在不同条件下的表现。实验结果表明，物体质量在达到一定阈值后对模型性能的影响不大，而物体大小的减小会导致模型性能显著下降。此外，干扰物体的存在和物体位置的变化也会显著影响模型的识别准确性。

Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks

➡️ 论文标题：Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks
➡️ 论文作者：Jusung Lee, Sungguk Cha, Younghyun Lee, Cheoljong Yang
➡️ 研究机构: NC Research, Republic of Korea
➡️ 问题背景：大型语言模型（LLMs）在自然语言处理（NLP）领域取得了显著进展，但其在多模态输入领域的应用，尤其是将多模态LLMs（MLLMs）扩展到特定领域的视觉任务上，仍面临挑战。当前，MLLMs主要应用于视觉-语言任务，如图像描述、推理或问答，而对于传统的特定领域视觉任务（如识别或检测）的研究相对较少。
➡️ 研究动机：为了克服这一挑战，研究团队开发了一种方法，将特定领域的视觉数据集转换为统一的问答格式（Visual Question Answering Instruction, VQA-IN），从而扩展MLLMs到特定领域的视觉任务。该方法不仅能够评估LLMs在特定领域视觉任务中的能力，还能同时执行多任务处理。
➡️ 方法简介：研究团队提出了VQA-IN方法，该方法能够将视觉-语言数据集和特定领域的视觉数据集转换为统一的问答格式。通过这种方式，研究团队能够评估不同MLLM架构在特定领域视觉任务中的表现。此外，研究还引入了控制句子长度的方法，以适应不同任务的需求。
➡️ 实验设计：实验在多个公开数据集上进行，包括视觉-语言任务（如COCO Caption, VQAv2, OKVQA, GQA）和特定领域视觉任务（如AffectNet, HaGRID, RefCOCOg）。实验结果表明，使用VQA-IN方法训练的MLLMs在特定领域视觉任务中表现出色，同时在视觉-语言任务中也保持了良好的性能。

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

➡️ 论文标题：Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast
➡️ 论文作者：Xiangming Gu, Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Ye Wang, Jing Jiang, Min Lin
➡️ 研究机构: Sea AI Lab, National University of Singapore, Singapore Management University
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在视觉-语言任务中表现出色，但对抗性图像/提示可以“越狱”这些模型，导致不安全的行为。研究团队发现了一种新的越狱范式——感染性越狱（Infectious Jailbreak），在这种范式中，攻击者只需越狱一个代理，就能在多代理环境中迅速感染几乎所有其他代理，导致有害行为的广泛传播。
➡️ 研究动机：现有的研究已经揭示了对抗性图像和提示可以越狱MLLMs，导致有害行为。为了进一步理解这种威胁，并探索其背后的机制，研究团队通过模拟包含多达一百万个LLaVA-1.5代理的多代理环境，验证了感染性越狱的可行性。研究旨在为未来的安全防护提供有价值的见解和方法。
➡️ 方法简介：研究团队提出了一种系统的方法，通过随机配对聊天（Randomized Pair-Wise Chat）来模拟多代理环境中的交互，并形式化了感染性动态。研究团队构建了一个包含四个组件的MLLM代理模型：MLLM M、RAG模块R、文本历史H和图像相册B。通过模拟多代理环境，研究团队评估了感染性越狱的传播速度和影响范围。
➡️ 实验设计：研究团队在包含多达一百万个LLaVA-1.5代理的多代理环境中进行了实验。实验设计了不同因素的变化，如感染率、恢复率、不同的攻击类型和聊天多样性，以全面评估感染性越狱的有效性和传播速度。实验结果表明，向任意一个代理的记忆库中注入对抗性图像，足以在27到31轮聊天后使几乎所有代理感染并表现出有害行为。研究团队还提出了一个简单的原则，用于确定防御机制是否能够有效遏制感染性越狱的传播。

On the Out-Of-Distribution Generalization of Multimodal Large Language Models

Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs

Exploring Perceptual Limitation of Multimodal Large Language Models

Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

相关文章：