当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（四十五）

news 来源：原创 2025/9/18 13:46:13

请添加图片描述

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

➡️ 论文标题：CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios
➡️ 论文作者：Qilang Ye, Zitong Yu, Rui Shao, Xinyu Xie, Philip Torr, Xiaochun Cao
➡️ 研究机构: Great Bay University、Harbin Institute of Technology, Shenzhen、University of Oxford、Sun Yat-sen University
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理动态音视频场景中的问题时，存在描述不具体和模糊的问题。尽管这些模型在处理音视频内容时表现出色，但在描述特定音视频对象时，往往会产生模糊或不准确的回答，尤其是在音频-视频问答（AVQA）任务中。
➡️ 研究动机：为了克服现有MLLMs在动态音视频场景中描述模糊的问题，研究团队提出了CAT（Clue Aggregator and Transformer），通过增强模型对问题相关线索的捕捉能力，以及通过AI辅助的模糊感知直接偏好优化（ADPO）策略，来提高模型的精确性和减少模糊性。
➡️ 方法简介：CAT通过以下三个方面的改进来增强MLLMs：1) 设计了一个线索聚合器（Clue Aggregator），用于动态捕捉与问题相关的音视频隐藏特征，以丰富细粒度的线索；2) 采用混合音视频训练策略，包括使用视频-文本对和音频-文本对进行特征对齐，以及高质量的指令来增强音视频感知；3) 提出了AI辅助的模糊感知直接偏好优化（ADPO）策略，通过重新训练模型来减少模糊性，使其更倾向于生成非模糊的回答。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括音频-视频问答（AVQA）任务。实验设计了不同的因素（如视频和音频的特征对齐、指令调优等），以及不同类型的测试场景（如音乐场景、现实场景等），以全面评估CAT在不同条件下的表现。实验结果表明，CAT在多种多模态任务中表现出色，尤其是在AVQA任务中显著优于现有方法。

XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution

➡️ 论文标题：XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution
➡️ 论文作者：Yunpeng Qu, Kun Yuan, Kai Zhao, Qizhi Xie, Jinhua Hao, Ming Sun, Chao Zhou
➡️ 研究机构: Tsinghua University, Kuaishou Technology
➡️ 问题背景：图像超分辨率（Image Super-Resolution, ISR）任务旨在从低分辨率（LR）图像生成高分辨率（HR）图像。然而，由于LR图像通常经历严重的退化，ISR模型难以准确感知语义信息，导致恢复的图像内容不正确或存在不真实的伪影。现有的基于扩散模型的方法虽然在生成任务中表现出色，但在处理ISR任务时仍面临挑战，尤其是在处理复杂的退化过程时。
➡️ 研究动机：为了提高ISR模型的性能，研究团队提出了一种新的框架——跨模态先验超分辨率（Cross-modal Priors for Super-Resolution, XPSR）。该框架利用多模态大语言模型（MLLMs）提供的语义先验，结合扩散模型，生成高保真和高真实感的图像。研究旨在通过引入高、低层次的语义先验，解决ISR任务中的退化问题，提高图像恢复的质量。
➡️ 方法简介：XPSR框架包括两个主要阶段：语义先验的生成和图像恢复。在第一阶段，研究团队利用最先进的MLLMs（如LLaVA）从LR图像中提取高、低层次的语义先验，并通过CLIP文本编码器生成相应的嵌入。在第二阶段，这些嵌入与LR图像一起输入到控制扩散模型中，通过设计的语义融合注意力（Semantic-Fusion Attention, SFA）模块，实现语义先验与生成模型的有效融合。此外，为了减少退化的影响，研究团队还引入了无退化约束（Degradation-Free Constraint, DFC），在像素空间和潜在空间中对LR图像进行约束。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括合成数据集和真实世界数据集。实验设计了不同类型的语义先验（高、低层次），以及不同类型的退化（如模糊、噪声等），以全面评估XPSR框架在不同条件下的性能。实验结果表明，XPSR在多个图像质量指标上均表现出色，能够生成高保真和高真实感的图像。

Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models

➡️ 论文标题：Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models
➡️ 论文作者：Qiuhui Chen, Huping Ye, Yi Hong
➡️ 研究机构: 上海交通大学计算机科学与工程系
➡️ 问题背景：理解3D医学图像卷积是医疗领域中的关键任务。然而，现有的3D卷积和基于变换器的方法在图像卷积的语义理解上有限，且需要大量的3D图像数据进行训练。最近，多模态大型语言模型（MLLMs）为图像理解提供了新的途径，但大多数MLLMs设计用于2D自然图像，对3D医学图像的理解能力有限。
➡️ 研究动机：为了增强3D医学图像的理解，研究团队提出了一种新的预训练框架Med3DInsight，该框架结合了现有的3D图像编码器和2D MLLMs，并通过设计的Plane-Slice-Aware Transformer (PSAT) 模块将它们连接起来，旨在提高3D图像的语义理解能力，并在多个下游任务中表现出色。
➡️ 方法简介：研究团队设计了一种系统的方法，通过构建Med3DInsight框架，利用2D MLLMs生成的详细文本描述来增强3D图像编码器的理解能力。PSAT模块通过嵌入平面和切片位置信息，将3D特征映射到2D特征空间，从而实现3D图像特征与2D图像和文本特征的对齐。
➡️ 实验设计：研究团队在三个公开数据集上进行了实验，包括3D分割和分类任务。实验设计了不同因素的变化，如不同的3D图像编码器和2D MLLMs的组合，以及不同的下游任务，以全面评估Med3DInsight在不同条件下的表现。实验结果表明，Med3DInsight在所有测试任务中均显著提高了性能，特别是在3D分割和分类任务中，平均Dice系数和分类准确率分别提高了超过2%和1%。

GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

➡️ 论文标题：GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing
➡️ 论文作者：Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang, Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, Shuiguang Deng, Hao Chen, Yingcong Chen, Shiguang Shan
➡️ 研究机构: The Hong Kong University of Science & Technology (Guangzhou), The Hong Kong University of Science & Technology, Beijing Institute for General Artificial Intelligence, Zhejiang University, Great Bay University, Hangzhou Research Institute, Beihang University, Institute of Computing Technology, Chinese Academy of Sciences
➡️ 问题背景：多模态大型语言模型（MLLMs）设计用于处理和整合来自多种来源的信息，如文本、语音、图像和视频。尽管在语言理解方面取得了成功，但评估其在情感计算等下游任务中的表现对于更好的人机应用至关重要。GPT-4V作为最先进的MLLM，在多种自然语言处理任务中表现出色，其处理和整合多模态信息的能力使其成为评估MLLM在情感计算任务中表现的理想候选。
➡️ 研究动机：尽管MLLMs在情感计算中显示出巨大潜力，但缺乏标准化的评估指标来准确评估其性能。本研究旨在评估GPT-4V在五个关键任务中的表现，涵盖视觉情感任务和推理任务，以提供关于MLLM在人机计算中应用的潜力和挑战的宝贵见解。
➡️ 方法简介：研究团队通过一系列方法评估了GPT-4V的性能，包括迭代对话、开放式问题、选择题和判断题。评估任务包括面部动作单元识别、一般面部表情识别、复合情感识别、微表情识别、微手势识别和欺骗检测。研究还探讨了通过链式思维（CoT）和调用Python工具来增强GPT-4V在复杂任务中的表现。
➡️ 实验设计：实验在多个公开数据集上进行，包括DISFA、RAF-DB和CASME2等。实验设计了多种评估方法，如通过不同的问题类型来评估GPT-4V在面部动作单元识别中的表现，以及通过多轮对话和选择题来评估其在微表情和微手势识别中的能力。此外，研究还探讨了GPT-4V在非接触生理测量和欺骗检测中的应用。

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models

➡️ 论文标题：Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models
➡️ 论文作者：Minjie Zhu, Yichen Zhu, Xin Liu, Ning Liu, Zhiyuan Xu, Chaomin Shen, Yaxin Peng, Zhicai Ou, Feifei Feng, Jian Tang
➡️ 研究机构: Midea Group、East China Normal University、Shanghai University
➡️ 问题背景：多模态大型语言模型（MLLMs）在视觉理解和推理任务中展现了卓越的能力，但其高计算需求限制了其在研究和用户社区中的广泛应用。为了克服这一障碍，研究团队探索了使用小型语言模型（SLMs）构建多模态助手的可能性，旨在实现与大型模型相当的性能，同时降低计算成本。
➡️ 研究动机：尽管小型语言模型在参数数量上远少于大型模型，但通过优化设计，它们仍能实现与大型模型相当的性能。研究团队通过系统地分析多模态小型语言模型（MSLMs）的设计空间，包括视觉表示、语言模型和优化策略，旨在为开发高效能的MSLMs提供指导。
➡️ 方法简介：研究团队提出了一种系统的方法，通过评估不同视觉表示、语言模型和优化策略对MSLMs性能的影响，探索了MSLMs的设计空间。实验中使用了多个基准测试，包括学术任务导向的基准测试和指令跟随的基准测试，以全面评估模型的性能。
➡️ 实验设计：研究团队在八个基准测试上进行了实验，包括视觉问答（VQA-v2）、科学问答（ScienceQA）、文本视觉问答（TextVQA）等。实验设计了不同的视觉表示、语言模型和优化策略，以评估这些因素对模型性能的影响。研究发现，增加图像分辨率并不总是提高性能，同时微调视觉和语言模型对于MSLMs的性能提升至关重要。此外，指令调优（如监督微调和基于人类反馈的强化学习）对于MSLMs的性能提升并非必要，但可以提高模型的对话能力。

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution

Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models

GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models

相关文章：