当前位置：首页 > news >正文

多模态人工智能研究：视觉语言模型的过去、现在与未来

news 来源：原创 2025/7/21 17:09:29

多模态人工智能研究：视觉语言模型的过去、现在与未来

1. 引言：定义多模态图景

多模态人工智能指的是旨在处理和整合来自多种数据类型或“模态”信息的人工智能系统，这些模态包括文本、图像、音频和视频等。与通常侧重于单一模态（例如，用于文本的自然语言处理或用于图像的计算机视觉）的传统人工智能不同，多模态人工智能旨在通过结合这些不同的数据形式来理解和生成见解1。这种方法模仿了人类的认知方式，我们自然地整合来自各种感官的输入，以形成对世界的连贯理解1。多模态人工智能的重要性在于其有潜力创建更准确、更细致和更像人类的人工智能系统，这些系统能够理解复杂的现实世界场景1。多模态人工智能研究的核心动机在于通过利用不同数据模态的互补性，弥合机器感知与人类般全面理解之间的差距。人类并非通过孤立的感官来感知世界。为了创建真正智能的系统，我们需要超越单一模态人工智能，使机器能够整合和跨越各种数据形式进行推理，从而反映人类感官体验的丰富性。视觉语言模型（VLMs）是多模态人工智能的一个关键子集，专门设计用于处理和理解视觉（图像、视频）和语言（文本）信息5。它们旨在学习这两种模态之间的关联和关系，从而实现图像描述、视觉问答和文本到图像搜索等任务6。视觉语言模型的发展代表着朝着更通用和更智能的能够以更有意义的方式与世界交互的人工智能系统迈出的重要一步8。视觉语言模型至关重要，因为视觉是人类主要的感官，而将视觉与语言联系起来，可以解锁需要通过自然语言理解和交互视觉世界的广泛应用。视觉提供了关于世界的丰富信息。通过使人工智能能够理解和使用语言来交流关于视觉内容的信息，我们极大地扩展了其在涉及人机交互和现实世界理解的任务中的适用性。

本报告将对多模态人工智能研究进行全面综述，重点关注视觉语言模型的演变、核心技术、近期进展（特别是视觉语言模型和大型多模态模型）、训练和评估、应用以及未来趋势。其目标是提供专家级的分析，以解答用户关于过去技术、近期发展（包括CLIP和千问等大型多模态模型）以及该领域未来方向的具体问题。

2. 多模态人工智能研究的历史概述

早期研究探索了结合多种模态以提高人工智能模型性能的方法，在数据融合和神经架构设计方面取得了重要进展10。最初的努力通常涉及选择最佳的融合技术来构建有效的多模态表示10。早期多模态人工智能研究通过建立结合不同数据类型的基本原则奠定了基础，尽管当时的技术不如今天的深度学习方法先进。在深度学习革命之前，整合多种模态是一个复杂的工程挑战，通常依赖于手工设计的特征和为特定数据组合量身定制的特定融合算法。深度学习和神经网络设计的进步一直是多模态人工智能进步的主要驱动力10。深度学习使得创建能够以更高的效率和准确性处理复杂跨模态任务的模型成为可能10。在计算机视觉（CNN 1）和自然语言处理（Transformer 1）等领域强大的单模态模型的发展为多模态系统提供了基础11。深度学习提供了必要的工具和架构（如CNN和Transformer），以有效地学习跨不同模态的复杂模式和关系，从而实现了多模态人工智能能力的巨大飞跃。深度神经网络能够从原始数据中自动学习分层表示，而无需进行广泛的特征工程，这使得构建能够处理和整合不同数据类型的强大模型成为可能。语言模型在20世纪80年代由IBM开始早期开发，侧重于预测句子中的下一个词12。万维网的出现为训练语言模型提供了大量数据12。2017年Transformer架构的引入是一个关键时刻，它彻底改变了自然语言处理，随后也影响了视觉语言模型的发展13。早期的视觉语言模型探索了不同的融合机制来结合视觉和语言特征15。视觉语言模型研究的基础建立在语言建模和计算机视觉的进步之上，Transformer架构在实现有效的跨模态交互方面发挥了至关重要的作用。Transformer处理序列数据和建模长期依赖关系的能力使其非常适合处理文本和视觉特征（表示为补丁序列），为复杂的视觉语言模型铺平了道路。

3. 视觉语言模型的核心技术

CLIP由OpenAI于2021年推出，是一款开创性的模型，它弥合了计算机视觉和自然语言处理之间的差距16。**架构：**CLIP使用双编码器架构，包含一个图像编码器（通常是Vision Transformer或ResNet 22）和一个文本编码器（基于Transformer的语言模型 22），将图像和文本映射到一个共享的潜在空间中19。**训练方法：**CLIP在一个从互联网收集的包含4亿图像-文本对的大规模数据集上，使用对比学习目标进行训练19。它学习最大化正确配对的图像和文本嵌入之间的相似性，同时最小化不正确配对的嵌入之间的相似性18。**影响：**CLIP通过展示学习哪些标题与哪些图像匹配是一种可扩展且有效的方法来生成高质量的图像表示，从而彻底改变了该领域18。它实现了对各种下游任务的零样本迁移，而无需专门的输出头5。CLIP已被用于图像分类、图像生成引导（例如，DALL-E 21）、内容审核、图像搜索和图像相似性等任务19。**洞察：**CLIP的创新在于其在海量网络规模数据集上采用的对比学习方法，这使得它能够学习高度可迁移的多模态嵌入空间，从而显著影响了后续的视觉语言模型研究和应用。通过将标签的直接预测转变为通过对比任务学习图像和自然语言描述之间的关系，CLIP实现了前所未有的零样本泛化能力，使其成为许多下游视觉语言任务的基础模型。其他著名的视觉语言模型架构及其底层技术包括：**BLIP（用于理解和生成的自举式语言-图像预训练）16：**引入了一种新颖的多模态混合编码器-解码器（MED）架构，用于统一理解和生成任务。它使用图像-文本对比学习、图像-文本匹配和图像条件语言建模目标18。BLIP-2 18 侧重于利用现成的冻结模型和一个轻量级的查询Transformer（Q-Former）来弥合视觉和语言之间的差距。**ALIGN（少量数据足以进行语言-图像预训练）26：**强调使用带噪声的文本监督来扩大视觉和视觉-语言表示学习。**LiT（锁定图像调整）44：**一种对比调整方法，它锁定预训练的图像模型并训练解锁的文本模型以对齐它们的嵌入空间，通过数据高效性实现强大的零样本迁移。**Flamingo 17：**旨在通过使用视觉条件自回归文本生成模型在各种开放式视觉和语言任务上进行少样本学习，该模型可以摄取交错的图像/视频和文本。**VisualBERT 42：**通过使用掩码语言建模和图像-文本匹配来扩展BERT以处理视觉输入。**ViLBERT（视觉和语言BERT）15：**通过两个平行的BERT风格模型（用于图像区域和文本片段）扩展BERT，这两个模型通过协同注意Transformer层进行交互。各种视觉语言模型架构已经被开发出来，每种架构都采用不同的策略来学习和融合视觉和语言表示，包括对比学习、掩码建模和利用预训练的单模态模型。研究人员探索了各种方法来结合预训练的视觉和语言模型的优势。一些方法侧重于使用对比或掩码目标从头开始进行联合训练，而另一些方法则旨在通过冻结某些组件或使用轻量级的桥接模块来有效地调整现有的单模态模型以用于多模态任务。多模态融合机制是结合视觉和语言表示的策略。**早期融合：**在输入层将来自不同模态的原始数据合并54。**晚期融合：**分别处理每个模态，然后在后期阶段组合输出54。**交叉注意：**允许模型在处理另一个模态时关注一个模态的相关部分，从而实现动态交互和对齐7。这在基于Transformer的视觉语言模型中很常见。**连接：**将来自不同模态的特征向量组合成单个表示63。**投影：**使用线性层或多层感知器将来自不同模态的表示映射到共享的嵌入空间5。**门控机制：**控制模态之间信息的流动43。融合机制的选择显著影响了视觉语言模型整合和跨视觉和语言数据进行推理的有效性，其中交叉注意和投影是最近架构中特别流行的技术。视觉和语言特征的组合方式决定了模型捕获这些模态之间复杂关系和依赖性的能力。诸如交叉注意之类的技术允许细粒度的对齐，而投影有助于建立一个共同的语义空间以进行比较和交互。

4. 近期进展：大型多模态模型时代

大型多模态模型通过整合视觉、语音和其他模态，扩展了大型语言模型的能力16。它们可以同时处理和理解多种类型的数据，从而实现图像描述、视频分析和文本到图像生成等任务64。大型多模态模型旨在通过模仿人类跨各种感官的感知来更全面地理解世界43。大型多模态模型代表了下一代多模态人工智能，超越了仅仅视觉和语言的范畴，涵盖了更广泛的模态，并展现出更复杂的推理和生成能力。在视觉语言模型和大型语言模型进步的基础上，大型多模态模型力求通过整合更多感官输入并实现更多样化的输出形式，从而实现更全面的理解，从而推动迈向通用人工智能的边界。以下是前沿大型多模态模型的案例研究：**Qwen-VL系列（包括Qwen2.5-VL）63：**由阿里云开发，Qwen-VL是一款多功能视觉语言模型，在理解、定位、文本阅读等任务中表现出色。Qwen2-VL引入了原生动态分辨率和多模态旋转位置嵌入（M-ROPE）等创新技术，改进了对各种图像分辨率和宽高比的处理以及视频理解78。Qwen2.5-VL进一步增强了在视觉识别、对象定位、文档解析和长视频理解方面的能力8。这些模型支持多语言对话，并在中文问答任务中表现出强大的性能65。**美图的MiracleVision 91：**美图自主研发的AI视觉大模型，专注于AI视频生成和AI设计。最新版本在语义理解、图像稳定性和动作连贯性方面都有所提升。美图正积极将其MiracleVision集成到其产品中，并扩大其在电子商务、广告、游戏和视频创作等领域的应用91。**OpenAI的GPT-4V（视觉）和GPT-4o 16：**GPT-4V整合了图像和文本输入，实现了描述图像、总结屏幕截图文本以及回答包含图表的考试问题等任务125。GPT-4o是OpenAI最新的多模态模型，旨在实时处理和生成文本、音频、图像和视频，提供了更高的速度和效率63。大型多模态模型的架构在如何整合不同模态方面有所不同，有些使用独立的编码器和融合模块，而另一些则采用端到端训练70。像Qwen-VL这样的模型利用预训练的LLM（Qwen-7B）和视觉编码器（ViT）以及位置感知适配器来实现高效处理65。Flamingo使用冻结的语言模型和带有交叉注意层的视觉编码器进行少样本学习42。GPT-4o旨在实现一个统一的模型架构，以原生方式处理多种模态63。大型多模态模型的格局以多样化的架构选择为特征，每种架构都旨在优化性能、效率以及处理广泛多模态任务的能力。不同的LLM采用各种策略来整合视觉和语言信息，从轻量级适配器到深度融合机制，反映了对实现强大的多模态理解和生成的最佳方式的持续研究。

5. 视觉语言模型和大型多模态模型的训练与评估方法

预训练是视觉语言模型开发的关键步骤，通常涉及在包含大量图像-文本对的数据集上进行训练，以学习通用的多模态表示5。**对比学习：**一种常见的预训练目标，旨在通过对比正对（匹配）和负对（不匹配）来对齐共享空间中的图像和文本嵌入（例如，CLIP 19、ALIGN 26）19。**掩码语言-图像建模（MLM/MIM）：**从语言模型改编的技术，其中文本或图像的部分被掩盖，模型被训练来预测缺失的信息（例如，VisualBERT，FLAVA 42）。**前缀语言建模（PrefixLM）：**使用图像作为语言模型的前缀，训练模型以视觉输入为条件预测后续文本（例如，SimVLM，Frozen 42）。**数据集：**诸如LAION-5B 6、PMD 6、Conceptual Captions 6 和WebImageText (WIT) 30 等大型数据集通常用于预训练42。使用各种自监督和对比学习目标在大量多模态数据上进行预训练对于使视觉语言模型学习丰富的表示并实现强大的零样本和迁移学习能力至关重要。通过在预训练期间将模型暴露于各种图像-文本关系，我们使它们能够广泛理解视觉和语言概念及其对应关系，然后可以将其用于各种下游任务。微调涉及在较小的特定任务数据集上进一步训练预训练的视觉语言模型，以提高其在视觉问答或图像描述等下游任务中的性能5。**迁移学习：**使用诸如知识蒸馏6之类的技术将知识从较大的预训练模型迁移到较小的模型。**提示调整：**通过仔细设计文本提示（有时包括几个示例（少样本学习138））来调整视觉语言模型，以引导模型生成所需的输出42。**参数高效微调（PEFT）：**使用诸如LoRA（低秩适应）5之类的方法以更少的训练参数微调大型模型，从而降低计算成本。**指令调整：**在指令和相应的视觉-文本响应数据集上微调视觉语言模型，以提高其遵循自然语言指令的能力43。微调允许将通用视觉语言模型有效地适应特定的应用程序需求，提高其针对目标任务的准确性和相关性。虽然预训练提供了坚实的基础，但在特定任务数据上进行微调有助于模型专门化并优化其在需要解决的特定问题上的性能，这通常需要平衡性能和计算效率的技术。用于评估视觉语言模型的关键数据集和基准包括：**视觉问答（VQA）数据集：**VQA v2 6、GQA 6、VizWiz 164、TextVQA 9、RealWorldQA 80 等6。**图像描述数据集：**COCO Captions 6、Flickr30k 6。**跨模态检索基准：**Flickr30k 6、MS-COCO 6。**MM-Bench 5：**涵盖广泛多模态任务的基准。**MMMU（大规模多学科多模态理解与推理基准）5：**评估视觉语言模型在需要大学水平学科知识和跨学科推理的任务中的表现。各种基准和数据集被用于评估视觉语言模型性能的不同方面，包括理解、生成、推理和检索能力。评估资源的种类反映了评估多模态模型的复杂性，需要测试不同功能并解决潜在偏差或局限性的基准。评估视觉语言模型性能具有挑战性，因为它需要评估视觉和语言理解及其对齐6。诸如BLEU、ROUGE、METEOR和CIDEr 6之类的传统指标通常用于生成任务，但可能无法完全捕捉多模态理解的质量。新的基准和评估方法正在不断开发，以解决现有方法的局限性9。能够有效区分模型性能的全面且具有挑战性的基准的开发是一个持续的研究领域5。评估多模态模型需要更复杂的指标和基准，这些指标和基准超越了传统的自然语言处理和计算机视觉评估，以真正评估多种模态的整合和理解。评估模型在视觉和语言之间理解和推理的能力需要能够评估的指标，这些指标不仅评估生成文本的质量或对象识别的准确性，还评估多模态交互的连贯性和相关性。

6. 视觉语言模型在各领域的应用

视觉语言模型已在医疗保健、自动驾驶、电子商务和零售、内容生成和编辑、机器人和具身智能、辅助功能、安全和监控、教育和学习、欺诈检测和预防、语义搜索和信息检索、半导体行业、虚拟和增强现实、营销和广告以及文档理解和分析等领域得到广泛应用1。

7. 多模态人工智能的未来方向和新兴趋势

未来的研究可能会侧重于开发更高效和可扩展的架构9，改进预训练策略以学习更丰富的多模态表示9，增强微调技术以更好地适应特定任务和领域9，整合注意力机制以实现更有效的跨模态融合8，以及探索Transformer之外的新颖架构，例如Mamba 211。未来的研究可能会侧重于使视觉语言模型更高效、更强大，并能够通过架构创新和改进的训练方法处理日益复杂的任务。随着对多模态人工智能的需求增长，将推动开发不仅更强大而且更易于在实际应用中部署和使用的模型，这需要模型设计和训练过程的进步。大型多模态模型将扩展到整合音频、视频和3D数据，以实现更丰富的上下文理解2。开发能够处理视频和音频中时序信息的模型56。通过与AR/VR技术集成，创造更具沉浸感和互动性的体验3。多模态人工智能的未来涉及向真正多感官系统的转变，这些系统能够处理和推理超出视觉和语言范围的更广泛的模态，从而实现更复杂和真实的交互。为了实现更像人类的智能，人工智能需要能够像人类一样通过多种感官来理解和与世界互动。这需要扩展当前的LLM以无缝整合和推理音频、视频、3D和其他数据模态。解决当前多模态人工智能模型的局限性，例如幻觉和偏见，并提高其推理能力，是未来研究构建更可靠和值得信赖的系统的关键领域1。研究旨在减轻视觉语言模型和大型多模态模型中的幻觉（生成不正确或无意义的信息）9。开发解决训练数据中偏见的方法，这些偏见可能导致不公平或歧视性的输出1。提高多模态模型的推理能力以处理更复杂和抽象的任务5。虽然LLM取得了显著的进步，但它们仍然存在生成不真实信息和表现出偏见的问题。未来的工作必须侧重于开发能够将响应扎根于现实并确保跨不同人口群体公平的技术。此外，增强其执行复杂推理的能力将解锁更高级的应用。多模态人工智能被认为是实现通用人工智能的潜在途径，因为它能够更全面地理解世界71。通过整合多种感官和认知模式，多模态人工智能旨在模仿人类般的学习、决策和问题解决能力3。大型多模态模型处理各种数据类型和执行复杂推理的能力使人工智能更接近实现更通用的智能43。多模态人工智能凭借其整合和推理不同模态的能力，被视为实现通用人工智能的关键一步，通用人工智能要求人工智能系统具备类似于人类的广泛认知能力。通向通用人工智能的道路可能涉及创建能够以整体方式感知和理解世界的人工智能系统，整合来自所有相关模态的信息，并在不同领域表现出灵活的推理和问题解决能力。多模态人工智能是实现这一愿景的关键推动因素。

8. 结论：规划多模态研究的未来

总之，多模态人工智能和视觉语言模型领域正在迅速发展，其潜力巨大，能够改变我们与技术互动和理解世界的方式。通过整合多种数据模态，这些模型能够实现更准确、更细致和更像人类的智能，从而在医疗保健、自动驾驶、电子商务和机器人等各个领域开辟了新的应用。尽管取得了显著的进步，但仍存在一些挑战，例如减轻幻觉、解决偏见和提高推理能力，这些都是未来研究的关键领域。展望未来，我们预计视觉语言模型架构和训练技术将不断进步，与其他模态（如音频、视频和3D数据）的整合将变得更加普遍。最终，多模态人工智能有潜力成为实现通用人工智能的关键一步，使机器能够以更全面和智能的方式感知、理解和与世界互动。

表1：单模态人工智能与多模态人工智能的比较

特征	单模态人工智能	多模态人工智能
处理的数据类型	单一数据类型（文本、图像、音频或视频）	多种数据类型（文本、图像、音频、视频等）
上下文理解	仅限于单一模态提供的信息	通过整合来自不同模态的信息获得更全面的理解
任务范围	适用于特定模态的任务	适用于需要跨多种模态理解和推理的任务
人机交互	通常依赖于单一类型的输入和输出	支持更自然和直观的交互，利用多种输入和输出方式
对数据不一致的弹性	容易受到单一模态中缺失或嘈杂数据的影响	如果一种数据模态不可靠或不可用，可以依赖其他模态来弥补

表2：主要视觉语言模型概述

模型名称	开发者	主要特点/创新	底层技术	值得注意的应用
CLIP	OpenAI	对比学习，零样本迁移	Transformer，Vision Transformer，ResNet	图像分类，内容审核，图像搜索
Qwen-VL系列	阿里云	原生动态分辨率，多模态旋转位置嵌入	Transformer，Vision Transformer	视觉问答，文本阅读，多语言支持
MiracleVision	美图	专注于视频生成和AI设计，语义理解	自研AI模型	图像编辑，视频创作，商业设计
GPT-4V/4o	OpenAI	多模态输入（图像和文本），实时处理多种模态	Transformer	视觉问答，代码生成，多模态对话
Flamingo	DeepMind	少样本学习，视觉条件文本生成	Transformer，NFNet	开放式视觉和语言任务

表3：视觉语言模型的主要评估数据集和基准

数据集/基准名称	描述	主要评估任务	使用的指标	相关Snippet IDs
VQA v2	包含关于图像的开放式问题	视觉问答	准确率	6
COCO Captions	包含图像及其文本描述	图像描述	BLEU, ROUGE, METEOR, CIDEr	6
Flickr30k	包含图像及其文本描述	图像描述，跨模态检索	Recall@K, mAP	6
MM-Bench	包含各种多模态任务	图像分类，视觉问答等	准确率	5
MMMU	包含需要大学水平知识的挑战	多模态理解和推理	准确率	5

多模态人工智能研究：视觉语言模型的过去、现在与未来

相关文章：