当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（二十五）

news 来源：原创 2025/8/19 18:14:02

请添加图片描述

ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

➡️ 论文标题：ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation
➡️ 论文作者：Xiaoqi Li, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan Shen, Renrui Zhang, Jiaming Liu, Hao Dong
➡️ 研究机构: 北京大学计算机学院
➡️ 问题背景：机器人操作依赖于准确预测接触点和末端执行器方向以确保操作成功。然而，基于学习的机器人操作，通常在模拟器中训练有限类别，难以实现泛化，尤其是在面对广泛类别时。因此，研究团队提出了一种创新方法，利用多模态大语言模型（MLLMs）的强推理能力，增强操作的稳定性和泛化能力。
➡️ 研究动机：现有的机器人操作方法虽然表现出色，但往往牺牲了可解释性，将低级操作预测视为黑箱问题，并缺乏人类的常识推理能力，限制了其对广泛类别对象的操作能力。研究团队旨在利用MLLMs的常识和推理能力，通过微调注入的适配器，保留MLLMs的固有常识和推理能力，同时赋予其操作能力。
➡️ 方法简介：研究团队设计了一种复杂的微调策略，包括对象类别识别、先验能力推理和操作感知姿态预测，使MLLMs能够识别对象类别、理解哪些区域可以操作，并最终生成精确的接触点和方向。在推理过程中，采用链式思维流程，使模型的预测更具可解释性。此外，还设计了主动阻抗适应策略，以闭环方式预测后续路径点，确保操作的顺利进行。
➡️ 实验设计：在模拟器和真实世界中进行了实验，实验设计了不同任务，包括对象类别识别、先验能力推理和操作感知姿态预测，以全面评估模型的泛化能力和操作性能。此外，还设计了测试时适应（TTA）策略，以应对真实世界中的环境和设备配置差异，提高模型在特定真实场景中的性能。

Cloud-Device Collaborative Learning for Multimodal Large Language Models

➡️ 论文标题：Cloud-Device Collaborative Learning for Multimodal Large Language Models
➡️ 论文作者：Guanqun Wang, Jiaming Liu, Chenxuan Li, Junpeng Ma, Yuan Zhang, Xinyu Wei, Kevin Zhang, Maurice Chong, Ray Zhang, Yijiang Liu, Shanghang Zhang
➡️ 研究机构: 北京大学、上海人工智能实验室、南京大学
➡️ 问题背景：多模态大语言模型（MLLMs）在诸如图像描述、常识推理和视觉场景理解等任务中表现出色。然而，由于模型参数庞大，这些模型在客户端设备上的部署受到限制，导致压缩后的模型在设备上的泛化能力显著下降。研究团队针对这一挑战，提出了一种云-设备协同持续适应框架（CD-CCA），旨在通过利用云上大规模MLLMs的能力，增强设备上压缩后的MLLMs的性能。
➡️ 研究动机：现有的研究主要集中在如何将大规模MLLMs压缩以适应设备部署，但这些压缩模型在面对动态分布变化时表现不佳。为了提高设备上压缩模型的泛化能力和适应性，研究团队设计了CD-CCA框架，通过云-设备协同学习，实现模型的持续优化。
➡️ 方法简介：CD-CCA框架包含三个关键组件：设备到云的上行链路、云上的知识更新、以及云到设备的下行链路。上行链路采用不确定性引导的令牌采样（UTS）策略，减少传输成本并提高训练效率；云上采用基于适配器的知识蒸馏（AKD）方法，将大规模模型的知识转移到压缩模型；下行链路采用动态权重更新压缩（DWC）策略，优化更新参数的传输效率。
➡️ 实验设计：研究团队在两个跨域视觉推理基准数据集上进行了实验，包括从VQA-v2到A-OKVQA和从COCO Captions 2017到nocaps。实验结果表明，CD-CCA框架在领域迁移任务中显著优于先前的方法，特别是在VQA和图像描述任务中。此外，实验还验证了UTS策略在减少传输成本和保持性能方面的有效性，以及DWC策略在减少传输延迟和提高模型更新效率方面的优势。

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

➡️ 论文标题：TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
➡️ 论文作者：Zhengqing Yuan, Zhaoxu Li, Weiran Huang, Yanfang Ye, Lichao Sun
➡️ 研究机构: University of Notre Dame、Nanyang Technological University、Shanghai Jiao Tong University、Lehigh University
➡️ 问题背景：近年来，多模态大型语言模型（MLLMs）如GPT-4V在多种视觉-语言任务中展现了卓越的性能。然而，这些模型的闭源性质和高计算需求限制了它们的普及和应用。尽管一些开源MLLMs如LLaVA和MiniGPT-4在图像描述（IC）和视觉问答（VQA）等任务中表现出色，但它们通常需要大量的计算资源进行训练和推理。
➡️ 研究动机：为了提高多模态大型语言模型的可访问性和效率，研究团队开发了TinyGPT-V，这是一种新型的开源MLLM，旨在高效训练和推理，适用于各种视觉-语言任务。TinyGPT-V通过使用紧凑而强大的架构，结合预训练的视觉编码器和独特的映射模块，实现了视觉和语言信息的融合。该模型在训练和推理过程中所需的计算资源显著减少，同时保持了高性能。
➡️ 方法简介：TinyGPT-V利用Phi-2语言模型和预训练的视觉编码器，通过一个独特的映射模块实现视觉和语言信息的融合。该模型采用优化的训练策略，专注于小型预训练骨干网络，利用多任务数据集进行训练。TinyGPT-V的训练过程分为四个阶段，包括预热训练、预训练、指令微调和多任务学习，每个阶段都采用了特定的学习率策略和损失函数。
➡️ 实验设计：实验在单个NVIDIA RTX 3090 GPU上进行，配备了24GB的VRAM和AMD EPYC 7552 48核处理器。实验数据集包括LAION、Conceptual Caption、SBU、COCO Captions、RefCOCO、GQA、VQAv2、OK-VQA、AOK-VQA、OCR-VQA、Flickr30k等。实验结果表明，TinyGPT-V在多个基准测试中表现出色，尤其是在视觉-空间推理（VSR）任务中，其零样本性能超过了其他大型模型。此外，TinyGPT-V在GQA和IconVQ等任务中也表现出强大的性能，证明了其在多模态任务中的高效性和泛化能力。

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

➡️ 论文标题：Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
➡️ 论文作者：Yuqing Wang, Yun Zhao
➡️ 研究机构: Stanford University、Meta Platforms, Inc.
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）如OpenAI的GPT-4V和Google的Gemini，已经在学术和工业界产生了重大影响。这些模型通过增强大型语言模型（LLMs）的视觉理解能力，促进了多种多模态任务的应用。然而，初步的基准测试显示，Gemini在常识推理任务中的表现不如GPT模型，尤其是在基于HellaSWAG数据集的评估中。这可能未能全面反映Gemini在常识推理方面的真正潜力。
➡️ 研究动机：为了填补对Gemini在实际常识推理任务中表现的全面评估的空白，本研究通过12个不同的常识推理数据集进行了广泛的实验，涵盖了从一般到特定领域的任务。研究旨在全面评估Gemini在复杂推理任务中的表现，这些任务需要跨模态的常识知识整合。
➡️ 方法简介：研究团队选择了四个流行的LLMs（包括Llama2-70b、Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo）和两个MLLMs（Gemini Pro Vision和GPT-4V）进行实验。实验设计了零样本标准提示（zero-shot standard prompting, SP）和少样本链式思维提示（few-shot chain-of-thought prompting, CoT）两种提示设置，以评估模型在不同条件下的表现。
➡️ 实验设计：实验在12个常识推理数据集上进行，包括11个语言数据集和1个多模态数据集。语言数据集涵盖了通用和情境推理、专业和知识推理、社会和伦理推理等多个领域。多模态数据集VCR用于评估模型在视觉和语言理解方面的表现。实验结果表明，Gemini Pro在语言数据集上的表现与GPT-3.5 Turbo相当，但在多模态数据集上的表现不如GPT-4V，尤其是在时间相关问题上。此外，Gemini Pro在社会和伦理推理任务中表现出色，但在时间和社会常识推理方面存在显著挑战。

Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education

➡️ 论文标题：Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education
➡️ 论文作者：Arne Bewersdorff, Christian Hartmann, Marie Hornberger, Kathrin Seßler, Maria Bannert, Enkelejda Kasneci, Gjergji Kasneci, Xiaoming Zhai, Claudia Nerdel
➡️ 研究机构: TUM School of Social Sciences and Technology, Technical University of Munich, Germany; AI4STEM Education Center & Department of Mathematics, Science, and Social Studies Education, University of Georgia, USA
➡️ 问题背景：科学教育涵盖了从获取科学知识、参与科学实践到有效沟通科学发现和思想的广泛活动。这些活动对于培养学生应对未来复杂挑战的能力至关重要。科学学习本质上是多模态的，要求学生在不同的模态中进行科学和工程实践，如阅读和写作科学解释或论点、解释图表、绘制模型、分析和可视化数据等。这些活动促进了对科学知识的理解和特定领域的竞争力。然而，由于缺乏高质量的多模态学习材料，学生很少有机会参与高质量的多模态学习。
➡️ 研究动机：随着生成式人工智能（AI）的最新进展，特别是多模态大型语言模型（MLLMs）的发展，这些模型在处理和生成包括文本、声音和视觉输入在内的多模态数据方面展现出巨大潜力，为解决多模态学习材料的短缺问题提供了新的途径。本文旨在探讨MLLMs在科学教育中的变革作用，通过提出一个理论框架，展示MLLMs在多模态学习中的应用潜力，以及面临的挑战。
➡️ 方法简介：研究团队基于多媒体学习理论（CTML），提出了一个AI增强的多模态学习框架。该框架旨在探索MLLMs在科学教育中的核心方面，如内容创建、支持学习、促进科学实践参与、提供评估和反馈等。通过一系列示例场景，展示了MLLMs如何增加学习的模态性，包括教学策略和设计、学生参与、评估和反馈等方面。
➡️ 实验设计：虽然本文未详细描述具体的实验设计，但通过理论框架和示例场景的构建，研究团队探讨了MLLMs在科学教育中的应用潜力。这些场景包括但不限于：内容创建（如将表格数据转换为视觉图表）、支持学习（如通过视觉辅助简化技术语言）、促进科学实践参与（如帮助学生制定研究问题和假设）、科学沟通与展示（如生成基于图像的故事板）等。此外，研究还讨论了实施MLLMs时面临的数据保护和伦理问题，强调了在科学教育中负责任地使用AI技术的重要性。

ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

Cloud-Device Collaborative Learning for Multimodal Large Language Models

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education

相关文章：