当前位置：首页 > news >正文

【第三十四周】多模态大模型调研

news 来源：原创 2025/7/13 0:27:04

多模态大模型调研

摘要
Abstract
引言
多模态技术的主要方向
- 视觉-语言大模型（Vision-Language Large Models, VLLMs）
- 语音-语言大模型（Speech-Language Large Models, SLLMs）
- 音乐 - 语言大模型（Music-Language Large Models, MLLMs）
- 视频-语言大模型（Video-Language Large Models, V-LLMs）
- 当前多模态热点
多模态与网安的结合

摘要

本篇博客按照任务对多模态大模型进行了分类，主要分为视觉-语言模型、语音-语言大模型、音乐-语言大模型、视频-语言大模型，剖析了各种多模态大模型的关键技术和前沿进展。最后分析了当前多模态研究的热点方向，并介绍了多模态与网安结合方向结合的任务定义和目标。

Abstract

This blog categorizes multimodal large models into four task-oriented types: vision-language models, speech-language models, music-language models, and video-language models, analyzing their core technologies and cutting-edge advancements. It also explores current research hotspots in multimodal studies and introduces the task definitions and objectives of integrating multimodal approaches with cybersecurity.

引言

多模态大模型（Multimodal Large Language Models, MLLMs）通过整合文本、图像、音频、视频、传感器等多种模态数据，构建具备跨模态理解与生成能力的通用智能系统。其核心目标是通过模态间的对齐、融合与推理，模拟人类对世界的多感官认知过程。此类模型通常由模态编码器、输入投影器、语言模型骨干、输出投影器和模态生成器组成，关键技术包括跨模态对齐、指令微调和强化学习。

多模态技术的主要方向

视觉-语言大模型（Vision-Language Large Models, VLLMs）

VLMs 利用视觉与语言之间的交互学习，通过学习大量的视觉、文本数据，能够理解和生成包含视觉元素和语言描述的内容。
在这里插入图片描述
VLLMs 通常需要大量的计算资源来训练，并且它们的性能随着训练数据的质量和多样性的提升而提升。
OpenAI 在2021年推出 CLIP 模型，通过对比学习方法对大量图像和文本数据进行弱监督预训练，学习图像与文本之间的相关性，能够在多种下游任务中实现零样本预测，并在少样本预测方面取得领先性能。在 CLIP 的基础上，其他 VLLMs 如 Clip4clip、ActionCLIP 等针对不同任务进行了优化。
2022年提出的 BLIP 采用了 MED 架构和 CapFilt 机制，统一了视觉-语言领域的理解和生成任务的架构，并很大程度上减少了原始数据的噪声。其后续版本 BLIP - 2 进一步简化了预训练过程，通过轻量级的 QFormer 弥合视觉和语言之间的模态差距。2023 年 GPT - 4 正式发布，拓展了模型的能力，能够处理多模态输入，在处理复杂任务方面的性能超越了前代模型。
MiniGPT - 4 是基于 BLIP - 2 的模型，复现了 GPT - 4 的部分功能，但在提取图像细节和识别物体位置方面存在一定限制。谷歌开发的 ALIGN 模型，通过使用大规模噪声数据集和对比学习损失函数，学习视觉与语言之间的一致性表示。
VLLMs 的关键技术包括：ViT、CLIP-ViT、EVA-CLIP等提取图像特征，Q-Former或线性投影层压缩视觉特征，适配LLM的文本空间。

语音-语言大模型（Speech-Language Large Models, SLLMs）

SLLMs 融合语音与文本模态，支持语音识别、语音翻译、情感分析等任务。
在这里插入图片描述
主要的语音 - 语言大模型包括 Meta 的 HuBERT、微软亚洲研究院的 WavLM、OpenAI 的 Whisper、Meta 的 mms、小米的 k2 - prompt 和 Google 的 audioPaLM 等。
HuBERT 是基于 BERT 的自监督语音表示学习方法，通过聚类和掩码预测等技术提取音频自编码特征。WavLM 是自监督预训练的语音模型，通过随机变换和遮盖音频信号进行训练，在多种语音任务上取得优秀性能。
Whisper 支持语音识别、语音到文本翻译和语种检测，利用大规模参数量和数据量带来较强的英语零样本泛化能力。mms 专注于语音识别、语种检测和语音合成任务，通过海量无监督多语种数据构建和有监督数据清洗来提高模型性能。
k2 - prompt 专注于语音识别，通过交叉自注意力机制融合 LLMs 的文本模态信息。
audioPaLM 支持多种语音和文本相关任务，通过语音文本多模态融合和预训练模型初始化注入文本模态信息提升效果。
SLLMs 的关键技术包括：语音编码器，HuBERT、WavLM等自监督模型提取声学特征；跨模态对齐，CLAP模型将音频嵌入与文本语义空间对齐

音乐 - 语言大模型（Music-Language Large Models, MLLMs）

现有的音乐大模型在音乐理解、音乐字幕及音乐推理三方面进行评判。音乐理解涉及节拍、曲调、类型、乐器等基本内容；音乐字幕主要是总结和提取音乐内容；音乐推理则是结合音乐知识和外部知识，推理音乐的展示方式和适用场合。
在这里插入图片描述
2023 年开源的 Llark 模型，训练资料涵盖大量音乐作品，在音乐理解和字幕生成方面表现出色，在音频与文本匹配的多模态任务中也超越现有模型。
谷歌研究院推出的 MusicLM 能够根据文本描述生成高保真音乐，将音乐生成任务看作分层的序列转换过程。
Meta 推出的 MusicGen 是开源的 AI 音乐生成模型，基于 Transformer 架构，采用单阶段的 Transformer 语言模型和高效的令牌交织技术，能够根据文本描述或现有旋律生成高质量音乐。

视频-语言大模型（Video-Language Large Models, V-LLMs）

V-LLMs 是一个综合性的研究领域，旨在使 LLM 能够理解视频内容，结合视觉和语言信息，处理视频中的视觉和听觉内容。
2022 年，谷歌提出 Imagen Video，是基于级联视频扩散模型的文本到视频生成系统，能够根据文本提示生成高清晰度的视频。
2023 年，谷歌提出 VideoPoet，是基于 LLM 的 AI 视频创作工具，采用多模态设计，能将多种输入转化为高质量的视频输出，并同步产生相应的音频。
Runway 基础模型通过学习和理解视频数据，自动生成高质量的视频内容，采用生成对抗网络架构。
Meta 的 Make - A - Video 可以从给定的文字提示生成短视频。
OpenAI 于 2024 年发布的 Sora 模型，在视觉生成领域取得技术突破，能够生成长达 1min 的符合用户文本指令的视频，保持较高的视觉质量和连贯性。

当前多模态热点

模态对齐与融合技术：此方向的目标是解决不同模态（如图像、文本、音频）特征空间不一致的问题，实现跨模态语义统一。
其技术原理有：模态编码器，通过预训练的视觉编码器（如ViT、CLIP-ViT）和文本编码器（如BERT）将不同模态映射到高维特征空间；输入投影器，使用线性变换（MLP）或注意力机制（如Q-Former）对齐特征，例如将图像特征与文本特征维度匹配，便于后续联合处理；动态权重调整，引入自适应机制（如门控网络），根据输入内容动态调整各模态的权重，优化融合效果。
跨模态生成与理解一体化：此方向的目标是构建既能理解多模态输入、又能生成多模态输出的统一模型。
其技术原理有：自回归框架，基于Transformer架构，将图像、文本统一为token序列，通过自回归预测生成目标模态；扩散模型融合，如D-JEPA结合联合嵌入预测架构（JEPA）与扩散模型，通过掩码预测和FlowMatching损失实现连续空间生成。
多模态预训练与指令微调：此方向的目标是通过大规模预训练提升模型泛化能力，结合指令微调适应下游任务。
其技术原理有：多模态预训练任务：如图文匹配（ITM）、掩码语言建模（MLM）、跨模态对比学习（如CLIP）；指令增强：将任务描述嵌入prompt模板，通过强化学习优化生成结果与人类意图的对齐。
可解释性与因果推理：此方向的目标是增强模型决策透明度，解决“黑箱”问题。
其技术原理包括：因果图构建，如IMCG系统通过反事实干预模拟，量化各模态对预测结果的贡献；注意力可视化：通过梯度反向传播定位关键特征区域，解释模型决策依据。
多模态结合小样本学习：
多模态结合小样本学习（Multimodal Few-Shot Learning）旨在通过融合图像、文本、音频等多种模态数据，在极少量标注样本（如每类仅需1-5个样本）的条件下，实现模型对新任务的快速适应与泛化。
本方向的核心目标在于提升模型鲁棒性、实现高效知识迁移等
ZS-DeconvNet（Nature 2024）：通过跨模态预训练与物理模型结合，在超分辨率任务中将图像分辨率提升至衍射极限的1.5倍，且训练数据需求大幅降低。
MM-CDFSL（ECCV 2024）：针对第一人称动作识别，提出多模态蒸馏与掩码集成推理，大幅提升了在one-shot场景下的推理速度和准确率。
CPE-CLIP：通过提示正则化实现类增量学习，在医疗图像分类任务中参数量减少90%，同时保持95%以上准确率。

多模态与网安的结合

多模态与网络安全的结合旨在通过整合文本、图像、音频、网络流量、系统日志等多源异构数据，构建动态、智能化的安全防护体系。其核心目标包括：
提升威胁检测精度：通过多模态数据的互补性，突破单一数据源的局限性（如误报率高、隐蔽攻击难以识别），实现对高级持续性威胁（APT）、钓鱼攻击等复杂攻击的精准识别；
增强实时响应能力：利用多模态数据分析的并行处理优势，缩短安全事件从发现到处置的时间窗口（如将恶意流量拦截时间缩短至毫秒级）；
构建自适应防御体系：结合动态风险评估与多模态特征融合，实现安全策略的智能调整（如根据网络流量异常因子自动切换防御模式）；
保护数据隐私与合规性：在数据融合过程中应用联邦学习、生物加密等技术，确保敏感信息不被泄露，符合GDPR等法规要求。