当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（五十二）

news 来源：原创 2025/7/13 9:14:45

请添加图片描述

M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

➡️ 论文标题：M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models
➡️ 论文作者：Fan Bai, Yuxin Du, Tiejun Huang, Max Q. -H. Meng, Bo Zhao
➡️ 研究机构: Beijing Academy of Artificial Intelligence, The Chinese University of Hong Kong, Peking University, Southern University of Science and Technology
➡️ 问题背景：当前的多模态大语言模型（MLLMs）在2D医学图像分析中表现出色，但3D医学图像分析领域仍存在较大空白。3D医学图像如CT和MRI包含丰富的空间信息，但现有方法在处理这些图像时往往需要逐片分析，成本高昂且效果不佳。
➡️ 研究动机：为了填补3D医学图像分析的空白，研究团队致力于开发适用于3D医学图像的多模态大语言模型。通过构建大规模3D多模态医学数据集M3D-Data，提出3D多模态大语言模型M3D-LaMed，并创建3D多模态医学基准M3D-Bench，旨在提升3D医学图像分析的性能和应用范围。
➡️ 方法简介：研究团队构建了M3D-Data，包含120K图像-文本对和662K指令-响应对，涵盖多种3D医学任务。M3D-LaMed模型结合了3D视觉编码器和大型语言模型，能够处理图像-文本检索、报告生成、视觉问答、定位和分割等任务。3D视觉编码器通过CLIP-like策略预训练，3D空间池化感知器用于减少计算成本，同时保留空间信息。此外，研究团队还引入了可提示的分割模块，以实现3D医学图像的分割任务。
➡️ 实验设计：研究团队在M3D-Data上进行了全面的实验，包括图像-文本检索、报告生成、视觉问答、定位和分割等任务。实验结果表明，M3D-LaMed在3D医学图像分析中表现出色，显著优于现有方法。此外，研究团队还提出了M3D-Bench，这是一个涵盖8个任务的3D多模态医学基准，用于自动评估模型的性能。

A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias

➡️ 论文标题：A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias
➡️ 论文作者：Yuemei Xu, Ling Hu, Jiayi Zhao, Zihan Qiu, Kexin XU, Yuqi Ye, Hanwen Gu
➡️ 研究机构: 北京外国语大学信息科学技术学院
➡️ 问题背景：大规模语言模型（LLMs）的发展带来了自然语言处理（NLP）领域的范式转变。基于LLMs，多语言大规模语言模型（MLLMs）被开发出来，旨在解决多语言自然语言处理中的挑战，尤其是实现从高资源语言到低资源语言的知识迁移。然而，MLLMs仍面临语言不平衡、多语言对齐和固有偏见等显著问题。
➡️ 研究动机：尽管MLLMs取得了成功，但它们在多语言数据集的使用、多语言表示学习以及偏见问题上仍存在诸多挑战。本文旨在提供对MLLMs的全面分析，深入探讨这些关键问题，为未来的多语言模型研究提供有价值的见解。
➡️ 方法简介：研究团队首先概述了MLLMs的发展历程、关键技术及其多语言能力。接着，探讨了MLLMs的多语言训练语料库和面向下游任务的多语言数据集，这些对于增强MLLMs的跨语言能力至关重要。随后，调查了多语言表示的最新研究，分析了当前MLLMs是否能够学习到通用的语言表示。最后，讨论了MLLMs中的偏见问题，包括偏见的类型、评估指标和去偏技术。
➡️ 实验设计：本文并未设计具体的实验，而是通过文献综述的方式，系统地分析了MLLMs在多语言语料库、多语言对齐和偏见问题上的现状和挑战。研究团队总结了现有MLLMs的多语言训练语料库，探讨了多语言表示的最新进展，并对MLLMs中的偏见问题进行了深入分析。

A Survey on Large Language Model-Based Game Agents

➡️ 论文标题：A Survey on Large Language Model-Based Game Agents
➡️ 论文作者：Sihao Hu, Tiansheng Huang, Fatih Ilhan, Selim Tekin, Gaowen Liu, Ramana Kompella, Ling Liu
➡️ 研究机构: Georgia Institute of Technology, Cisco Research
➡️ 问题背景：大型语言模型（LLMs）及其多模态版本（MLLMs）的发展为游戏代理（game agents）的进化提供了前所未有的机会，使这些代理能够在复杂的计算机游戏环境中展现出类似人类的决策能力。然而，现有的LLM代理（LLMAs）与人类智能之间仍存在显著差异，主要体现在LLMAs依赖于从预训练数据中解码和泛化已有的知识，而人类智能则能够通过实验和经验在现实世界中发现和学习新知识。
➡️ 研究动机：为了弥合这一差距，研究团队对基于LLM的游戏代理（LLMGAs）进行了全面的综述，旨在提供一个统一的参考框架，涵盖LLMGAs的六个核心功能组件：感知、记忆、思考、角色扮演、行动和学习。此外，研究还对现有文献进行了分类，探讨了不同游戏类型的技术挑战、支持的游戏环境及常用的优化策略，并展望了未来的研究方向。
➡️ 方法简介：研究团队提出了一个概念架构，描述了LLMGAs的六个核心功能组件及其工作流程。此外，研究还引入了一个分类法，将现有文献分为六类游戏：冒险、通信、竞争、合作、模拟和创造与探索。对于每类游戏，研究描述了技术挑战、支持的游戏环境及常用的优化策略。
➡️ 实验设计：虽然本文主要是一个综述，但研究团队通过分析现有文献，系统地评估了不同LLMGAs在各种游戏类型中的表现，包括冒险、通信、竞争、合作、模拟和创造与探索游戏。研究特别关注了LLMGAs在感知、记忆、思考、角色扮演、行动和学习模块中的具体实现和技术挑战。

VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments

➡️ 论文标题：VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
➡️ 论文作者：Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan
➡️ 研究机构: The Chinese University of Hong Kong, Hong Kong SAR, China
➡️ 问题背景：全球约有22亿人受到视觉障碍的影响，这些障碍包括部分或完全的视觉感知困难。近年来，多模态大型语言模型（MLLMs）在多个领域展现了卓越的能力，尤其是视觉理解和推理方面。然而，视觉障碍者（VI）在使用MLLMs时面临挑战，主要是因为他们在捕捉图像时难以确保图像质量，导致MLLMs生成的响应不可靠。
➡️ 研究动机：尽管MLLMs在视觉理解和推理方面表现出色，但视觉障碍者在使用这些模型时遇到的主要问题是图像质量低下。为了提高MLLMs对视觉障碍者的适应性和实用性，研究团队设计了VIAssist，一个专门为视觉障碍者优化的MLLM。VIAssist能够识别低质量图像并提供详细的重新拍摄建议，从而提高模型对用户查询的响应质量。
➡️ 方法简介：研究团队首先收集了一个包含视觉障碍者特定问题和图像的指令数据集，用于微调MLLM。数据集中的每个样本格式为：<问题，图像，响应>。通过这个数据集，研究团队使用LoRA技术对基于LLaVA的模型进行了参数高效的微调，以增强模型在处理视觉障碍者查询时的性能。
➡️ 实验设计：研究团队在两个数据集上进行了实验，包括标准的视觉问答（VQA）数据集VQAv2和针对视觉障碍者的VQA数据集VizWiz。实验评估了VIAssist在不同条件下的表现，包括图像质量评估、重新拍摄建议的详细程度以及响应的相关性和准确性。实验结果表明，VIAssist在BERTScore和ROUGE评分上分别比基线模型高出0.21和0.31，显示出其在提高视觉障碍者查询响应质量方面的显著优势。

➡️ 论文标题：JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks
➡️ 论文作者：Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao
➡️ 研究机构: The Ohio State University、Peking University、University of Wisconsin-Madison
➡️ 问题背景：随着多模态大语言模型（MLLMs）的快速发展，确保这些模型在面对恶意输入时的安全性，并使其与人类价值观保持一致，已成为一个关键挑战。当前的研究主要集中在图像输入的越狱攻击上，但尚未探索用于越狱大语言模型（LLMs）的技术是否同样适用于MLLMs。
➡️ 研究动机：研究团队旨在通过引入JailBreakV-28K基准，评估LLMs越狱技术向MLLMs的转移性，以及MLLMs对各种越狱攻击的鲁棒性和安全性。研究发现，从LLMs转移过来的越狱攻击在MLLMs上具有显著的攻击成功率（ASR），这突显了未来研究中需要解决的文本和图像输入对齐漏洞问题。
➡️ 方法简介：研究团队构建了一个包含28,000个越狱测试案例的综合数据集JailBreakV-28K，涵盖了广泛的恶意查询和攻击策略。该数据集包括20,000个基于文本的LLM转移越狱攻击和8,000个基于图像的MLLM越狱攻击。通过这个数据集，研究团队评估了10个开源MLLMs的鲁棒性和安全性。
➡️ 实验设计：实验在10个最先进的开源MLLMs上进行，使用JailBreakV-28K基准评估模型对越狱攻击的响应。实验设计包括评估不同类型的攻击（如逻辑、说服、模板等）在不同模型上的效果，以及不同类型的图像输入（如空白图像、随机噪声图像、自然图像等）对攻击成功率的影响。实验结果表明，从LLMs转移过来的越狱攻击在MLLMs上具有显著的攻击成功率，强调了未来研究中需要解决的对齐漏洞问题。

M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias

A Survey on Large Language Model-Based Game Agents

VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments

相关文章：