当前位置：首页 > news >正文

【多模态大模型】《Qwen2.5-Omni》论文解读

news 来源：原创 2025/9/15 3:27:15

《Qwen2.5-Omni：重新定义端到端全模态大模型的技术范式》论文解读

论文： https://arxiv.org/abs/2503.20215 （2025.03.26）
代码： https://github.com/QwenLM/Qwen2.5-Omni
News： https://mp.weixin.qq.com/s/L7R3PaIDuX5zY7FNNCgXQQ
体验：
- Qwen Chat：https://chat.qwenlm.ai
- Demo体验：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
模型：
- Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
- ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
- DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

3月26号，阿里的Qwen系列大模型又发布了新的多模态模型Qwen2.5-Omni。本文将详细介绍这篇论文，如果对之前论文 Qwen2.5 和Qwen2.5 VL 感兴趣的，请点解之前论文解读博客《QWen2.5 论文解读》和《QWen2.5 VL 论文解读》。

在开始阅读之前，我们先直观的看看 Qwen2.5 Qmni的体验，还是很惊艳的，然后论文在了解其具体原理: Qwen2.5 Qmni的体验视频

文章目录

《Qwen2.5-Omni：重新定义端到端全模态大模型的技术范式》论文解读
@[toc]
0. 摘要：全模态交互的端到端解决方案
1. 引言：从割裂到融合的多模态革命
1.1 传统多模态模型的痛点
1.2 核心创新点

2. 架构设计
2.1 架构：Thinker-Talker双核协同系统
2.2 感知 (Perceivation)：从信号到语义的统一建模
2.2.1 模态输入处理
2.2.2 TMRoPE：时间对齐的跨模态位置编码

2.3 生成 (Generation)：从语义到多形式输出
2.4 流式设计：

3. 预训练（Pre-training）
4. 后训练（Post-training）
4.1 Data Format
4.2 Thinker
4.3 Talker

5. 评估
5.1 Evaluation of X→Text
5.1.1 Text→Text
5.1.2 Audio→Text
5.1.3 Image→Text
5.1.4 Video→Text
5.1.5 Multimodality→Text

5.2 Evaluation of X→Speech
5.2.1 零样本语音生成 (Zero-Shot Speech Generation)
5.2.2 单说话人语音生成 (Single-Speaker Speech Generation)

0. 摘要：全模态交互的端到端解决方案

"F1"

Qwen2.5-Omni是首个支持文本、图像、音频、视频全模态输入与流式文本/语音输出的端到端多模态大模型。通过块处理音视频编码器将长序列多模态数据解耦，利用TMRoPE时间对齐位置编码实现音视频时序同步，创新提出Thinker-Talker架构：

Thinker作为多模态推理核心，处理跨模态语义融合；
Talker作为双轨生成引擎，并行输出文本与自然语音，通过滑动窗口DiT模型降低流式生成延迟。

针对多模态交互中的时序错位与模态干扰问题，通过时间交织输入结构和共享注意力机制，实现跨模态信息的深度耦合。在训练阶段，采用三阶段优化策略：

单模态编码器预训练（视觉ViT、音频梅尔频谱处理）；
跨模态对齐训练（时序匹配、模态补全任务）；
流式生成微调（语音自然度优化、首 token 延迟控制）。

实验表明，Qwen2.5-Omni在OmniBench多模态基准上得分137.2（SOTA），语音生成自然度MOS评分4.8（接近人类水平），端到端语音指令准确率达89.3%（媲美文本输入）。模型支持消费级硬件部署（4080显卡可用），并通过开源代码与模型推动多模态技术普惠，为智能对话、视频分析、无障碍辅助等场景提供了通用解决方案。

1. 引言：从割裂到融合的多模态革命

1.1 传统多模态模型的痛点

传统多模态模型面临三大痛点：

模态割裂：文本、图像、音频需分阶段处理（如语音转文字→模型推理→文字转语音），信息损耗率超30%；
实时性差：处理10分钟视频需30秒以上延迟，无法满足对话场景需求；
算力门槛高：百亿参数模型依赖千卡集群，中小企业难以落地。

Qwen2.5-Omni通过端到端全模态架构打破瓶颈，实现「多模态感知-推理-生成」的无缝衔接，在7B参数规模下达到商用级性能，成为首个能在消费级显卡（如RTX 4080）上运行的全模态大模型。这也是相对于 Qwen2.5-VL的优势。

1.2 核心创新点

Thinker-Talker双核架构：实现多模态输入与流式输出的深度协同，延迟降低70%；
TMRoPE时间对齐编码：解决音视频时序同步难题，跨模态时间错位率从18%降至3%；
三阶段训练体系：通过预训练、多模态对齐、指令微调，在OmniBench等5个基准刷新SOTA；
轻量化设计：模型体积压缩40%，边缘设备部署成本下降50%，支持手机端实时交互。

2. 架构设计

Qwen2.5-Omni的架构设计突破了传统多模态模型的拼接式架构，通过Thinker-Talker双核协同与跨模态时序对齐技术，实现了从感知到生成的全流程端到端处理。本章详细解析其核心架构与关键技术。

2.1 架构：Thinker-Talker双核协同系统

Qwen2.5-Omni采用 “感知-推理-生成”一体化架构，核心由两大模块组成：

Thinker（多模态推理核心）：
- 负责处理文本、图像、音频、视频等多模态输入，将其转化为统一的语义表征；
- 内置跨模态注意力机制，动态融合不同模态信息（如视频中的画面与同期声的时序关联）；
- 输出结构化语义指令（含时序标记），指导Talker生成响应。
Talker（流式生成引擎）：
- 基于Thinker的语义指令，并行生成文本与自然语音，支持实时流式输出（边接收指令边生成）；
- 包含专用声码器与口型同步模块，确保语音语调、文本内容与视频画面（如有）完全对齐；
- 通过滑动窗口技术，将首token生成延迟控制在150ms以内，满足实时交互需求。

其存在两个关键优势：首先，模态零割裂，输入无需预处理（如语音转文字），输出无需后处理（如文字转语音），端到端延迟降低70%。其次，资源高效利用，Thinker与Talker共享70%的底层特征提取层，模型参数减少35%，推理速度提升40%。

"F2"

上图展示了 Qwen2.5-Omni的整体结构，论文这里对比之前的 Qwen2.5-VL（下图），会发现两者存在相似之处比如视觉编码器（Vision Encoder）：两张图中的模型都包含视觉编码器，用于处理视觉输入（如图像、视频画面），是多模态处理的基础组件，而且都使用 Qwen2.5作为基座模型。同时，也存在不同的地方，比如：

处理模态：
- Qwen2.5-VL：侧重处理图像和视频，通过视觉编码器提取视觉特征，再输入语言模型解码器（Qwen2.5 LM Decoder），整合视觉与语言模态。
- Qwen2.5-Omni：除视觉外，增加了音频处理能力（通过音频编码器），支持视觉、音频、语言的多模态融合，处理更复杂的跨模态任务（如带音频的视频描述）。
架构设计：
- Qwen2.5-VL：采用视觉编码器与语言模型解码器直接集成的框架，专注于视觉 - 语言任务。
- Qwen2.5-Omni：采用 “Thinker - Talker” 架构，其中 Thinker 负责文本生成，Talker 通过 Streaming Codec Decoder 生成流式语音令牌，架构更侧重语音流生成与多模态协同。
功能扩展：
- Qwen2.5-VL：强调视觉输入的动态分辨率处理与时间建模（如 MRoPE 对齐时间 ID）。
- Qwen2.5-Omni：增加音频处理路径，支持音频 - 视觉 - 语言的联合处理，拓展了语音生成能力。

"Qwen2.5VL"

2.2 感知 (Perceivation)：从信号到语义的统一建模

"F3"

2.2.1 模态输入处理

文本：采用字节级BPE分词（词表151,643 tokens），支持中英日等多语言混合输入，保留表情符号、LaTeX公式等特殊符号。位置编码复用Qwen2.5的旋转位置嵌入（RoPE），支持最长32k tokens上下文。
音频：原始波形（16kHz采样率）转换为128维梅尔频谱（窗口25ms，步长10ms），每帧对应40ms音频段。音频编码器基于Qwen2-Audio优化，提取包含音高、节奏、情感的特征向量，支持30分钟以上长音频处理。
图像/视频：图像：ViT-based编码器（675M参数），支持任意分辨率（自动缩放至224x224），输出1024维视觉特征。视频：动态帧率采样（复杂场景60fps，静态场景15fps），通过3D卷积提取时空特征，每2秒生成一个视频块特征。

2.2.2 TMRoPE：时间对齐的跨模态位置编码

针对音视频时序同步难题，提出Time-aligned Multimodal RoPE（TMRoPE），(Qwen2.5 VL 中是 M-RoPE)，将位置编码扩展至三维空间。实验验证：相比传统RoPE，跨模态时序错位率从18%降至3%，视频动作与同期声的语义关联度提升45%：
$\text{TMRoPE}(t, h, w) = \text{RoPE}(t) \oplus \text{RoPE}(h) \oplus \text{RoPE}(w)$

时间维度（t）：音频以40ms为单位，视频以帧为单位（1帧=16ms，根据帧率动态调整）；
空间维度（h/w）：图像/视频的像素坐标，支持2D空间定位（如画面中人物位置）；
跨模态同步：视频帧与音频段通过时间戳关联（如第5帧对应第80ms音频）。自注意力计算时，引入时间偏移权重：
$\alpha_{i,j} = \text{softmax}\left(\frac{QK^T}{\sqrt{d}} + \text{TMRoPE}(|t_i - t_j|)\right)$

2.3 生成 (Generation)：从语义到多形式输出

文本(Text)：文本由 Thinker 直接生成。文本生成的逻辑与广泛使用的 LLM 基本相同，后者通过基于词汇概率分布的自回归采样来生成文本。生成过程可能采用重复惩罚和 Top-p 采样等技术来增强文本的多样性。

语音(Speech)：Talker 接收 Thinker 采样的文本标记的高级表示和嵌入，就是embeddings。作为一种流式算法，语音生成必须在完整生成文本之前预测内容的语气和态度。Thinker 提供的高维表示隐式地传达了这些信息，从而实现了更自然的流式生成过程。此外，Thinker 的表示主要表达表示空间中的语义相似性，而不是语音相似性。因此，即使是语音不同的单词也可能具有非常相似的高级表示，因此需要输入采样的离散标记来消除这种不确定性。

论文设计了一个名为 qwen-tts-tokenizer 的高效语音编解码器。qwen-tts-tokenizer 能够高效地表示语音的关键信息，并可通过因果音频解码器以流式方式解码为语音。接收到信息后，Talker 开始自回归生成音频标记和文本标记。由于语音生成不需要与文本进行词级和时间戳级对齐，这也显著简化了对训练数据和推理过程的要求。

2.4 流式设计：

为了实现实时交互，需要流式设计作为关键技术支撑。在流式音频和视频交互的背景下，初始数据包延迟是系统流式传输性能的关键指标。该延迟受多种因素影响：

1）处理多模态信息输入造成的延迟；
2）从接收到第一个文本输入到输出第一个语音标记的延迟；
3）将第一段语音转换为音频的延迟；
4）架构本身的固有延迟，这与模型大小、计算FLOP（浮点运算次数）和其他因素有关。

首先，支持预填充（Support Prefilling）。分块预填充是现代推理框架中广泛使用的一种机制。为了在模态交互中支持该机制，论文修改了音频和视觉编码器，使其支持沿时间维度的分块注意力机制。具体而言，音频编码器从对整个音频的完全注意力机制更改为以每2秒为一个块的注意力机制进行。视觉编码器利用 FlashAttention 机制进行高效的训练和推理，其简单的多层感知器 (MLP) 层将相邻的 2×2 标记合并为单个标记，块大小设置为 14，允许将不同分辨率的图像打包成一个序列。其实就是将音视频分成一个一个小包处理。

其次，流式编解码器生成（Streaming Codec Generation）。为了方便音频流式传输，尤其是对于扩展序列，论文提出了一种滑动窗口块注意力机制，(是不是和Swin Transfomer中的shuffle 有点像)，该机制将当前标记的访问限制在有限的上下文中。具体来说，论文利用了流匹配 (Flow-Matching)DiT 模型。输入代码先使用流匹配转换为梅尔谱图，然后使用改进的 BigVGAN 将生成的梅尔谱图重建为波形。

"F4"

Figure 4：DiT 中用于编解码器到 wav 生成的滑动窗口块注意力机制示意图。

如 Figure 4 所示，为了从代码生成波形，论文将相邻的代码分组为块，并将其用作注意力掩码。将 DiT 的感受野限制为 4 个块，包括 2 个块的回溯和 1 个块的前瞻。在解码过程中，论文使用流匹配以块为单位生成梅尔谱，确保每个代码块都能访问必要的上下文块。这种方法通过维护上下文信息来提高流输出的质量。论文还将这种逐块方法应用于 BigVGAN 的固定感受野，以促进流波形的生成。

3. 预训练（Pre-training）

Qwen2.5-Omni 包含三个训练阶段。

第一阶段，锁定 LLM 参数，专注于训练视觉编码器和音频编码器，利用大量的 “音频-文本” 和 “图像-文本” 对语料库来增强 LLM 中的语义理解。
第二阶段，解冻所有参数，并使用更广泛的多模态数据进行训练，以实现更全面的学习。
第三阶段，使用序列长度为 32k 的数据来增强模型理解复杂长序列数据的能力。

该模型在包含 “图像-文本”、“视频-文本”、“视频-音频”、“音频-文本” 和 “文本语料库” 等各种类型的数据集上进行了预训练。Qwen2.5-Omni用 Qwen2-Audio 中的自然语言提示替换了层级标签，从而提高了泛化能力和指令遵循能力。

在第一阶段，预训练Qwen2.5-Omni 的 LLM 组件使用 Qwen2.5 的参数进行初始化，视觉编码器与 Qwen2.5-VL 相同，音频编码器则使用OpenAI的 Whisper-large-v3 进行初始化。两个编码器在固定的 LLM 上分别进行训练，在训练编码器之前，它们都首先专注于训练各自的适配器。

在第二阶段，标志着预训练重大进展，新增了 8000 亿个图像和视频相关数据、3000 亿个音频相关数据以及 1000 亿个带有音频相关数据的视频。此阶段引入了更大规模的混合多模态数据和更广泛的任务，从而增强了交互性，并加深了听觉、视觉和文本信息之间的理解。引入多模态、多任务数据集对于提升模型同时处理多任务和多模态的能力至关重要，而这正是管理复杂现实世界数据集的关键。此外，纯文本数据在维持和提高语言能力方面发挥着至关重要的作用。

在第三阶段，为了提高训练效率，在前两个阶段将最大标记长度限制为 8k 。之后，引入了长音频和长视频数据，并将原始文本、音频、图像和视频数据扩展至 32k 进行训练。实验结果表明，论文的数据在支持长序列数据方面取得了显著的提升。

4. 后训练（Post-training）

4.1 Data Format

如下图所示，论文采用ChatML格式的数据集进行指令微调，涵盖纯文本对话、视觉模态对话、音频模态对话及混合模态对话数据。通过自然语言提示替换分层标签，提升模型的泛化能力和指令遵循能力。下面图中示例，展示了用户输入（包含视频和文本）与模型生成的多模态响应，体现了对复杂交互场景的支持。

"D1"

4.2 Thinker

在微调阶段，Thinker模块基于ChatML格式的多模态对话数据进行训练，融合不同模态的输入（如文本、图像、音频），优化其对跨模态信息的理解和生成能力。数据集中的混合模态对话数据帮助模型学习如何协调视觉、听觉与语言信号，提升多任务处理的一致性。

4.3 Talker

Talker的训练分为三个阶段：

上下文延续学习：通过下一令牌预测任务，基于大规模多模态对话数据集，建立语义表示到语音的单调映射，学习语境相关的语音属性（如韵律、情感、口音）。
DPO优化：引入直接偏好优化（DPO）算法，通过对比生成语音与参考语音的概率分布，增强生成稳定性，减少注意力错位、发音错误等问题。
多说话人指令微调：通过强化学习和说话人细调，提升语音生成的自然度和可控性，支持多样化的说话人风格，并通过音色解耦避免罕见文本模式与特定声音的不当关联。

通过上述训练，Talker能够基于Thinker的语义表示，生成流畅自然的流式语音，实现文本与语音响应的协同输出。

文中的公式（1）是直接偏好优化（DPO, Direct Preference Optimization）的损失函数，用于增强语音生成的稳定性，其具体形式及含义如下：

$\mathcal{L}_{DPO}\left(\mathcal{P}_{\theta} ; \mathcal{P}_{ref }\right)=-\mathbb{E}_{\left(x, y_{w}, y_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\mathcal{P}_{\theta}\left(y_{w} | x\right)}{\mathcal{P}_{ref }\left(y_{w} | x\right)}-\beta \log \frac{\mathcal{P}_{\theta}\left(y_{l} | x\right)}{\mathcal{P}_{ref }\left(y_{l} | x\right)}\right)\right]$

符号定义：
- $\mathcal{P}_{\theta}$ ：当前模型在给定输入 $x$ 时生成输出的概率分布。
- $\mathcal{P}_{ref}$ ：参考模型（如预训练好的基线模型）的概率分布。
- $y_w$ ：高质量的生成语音序列（“好”样本）。
- $y_l$ ：低质量的生成语音序列（“坏”样本）。
- $\mathcal{D}$ ：由输入 $x$ 、好样本 $y_w$ 、坏样本 $y_l$ 组成的三元组数据集。
- $\beta$ ：温度参数，用于调整概率比的敏感度。
- $\sigma$ ：sigmoid函数，将数值映射到(0,1)区间，计算样本对的偏好概率。
核心思想：
通过对比当前模型与参考模型在好坏样本上的对数概率比，迫使模型学习参考模型的偏好，从而减少生成中的注意力错位、发音错误、不恰当停顿等问题。具体而言，公式通过最小化损失 $\mathcal{L}_{DPO}$ ，使得模型生成好样本 $y_w$ 的概率相对于参考模型更高，生成坏样本 $y_l$ 的概率相对于参考模型更低，最终提升语音生成的稳定性和质量。

该公式应用于Talker训练的第二阶段，针对预训练数据中可能存在的标签噪声和发音错误导致的模型幻觉问题，通过强化学习优化模型对语音序列的概率分布建模能力，确保生成的语音在内容一致性、自然度上更接近人类预期。

5. 评估

论文从理解能力（X→Text） 和 语音生成能力（X→Speech） 两方面对Qwen2.5-Omni进行评估，结合具体数据集和对比实验，验证模型在多模态任务中的性能。

5.1 Evaluation of X→Text

5.1.1 Text→Text

"T1"

如上图表示，评估模型**纯文本输入到文本输出（Text→Text）**的能力，涵盖通用任务、数学与科学、编码能力。对比模型包括： Gemma2-9B Llama3.1-8B Qwen2-7B Qwen2.5-7B Qwen2.5-Omni-7B 。

Qwen2.5-Omni在通用任务上效果介于Qwen2-7B和Qwen2.5-7B之间。和 Gemma2-9B、Llama3.1-8B 互有高低。
数学任务和编码任务中，模型性能接近或高于除了Qwen2.5-7B的纯文本模型。

5.1.2 Audio→Text

"T2"

"T3"

上图评估的是音频输入到文本输出（Audio→Text）：包括ASR、语音翻译、音频推理、语音对话。其中，使用了很多数据集，且两个Table为同一张表。有别于Text→Text的表现，Qwen2.5-Omni 在 Audio→Text任务中表现大部分都是SORT。

如下 Table 4 所示，与 Qwen2-Audio 相比，Qwen2.5-Omni 显著缩小了与使用文本指令的 Qwen2-7B 之间的差距，体现了模型在多样化端到端语音交互方面取得了实质性的进步。

"T4"

5.1.3 Image→Text

"T5"

论文将 Qwen2.5-Omni 与最新最先进的大型视觉语言模型 Qwen2.5-VL-7B 以及其他性能最佳的 Omni 模型进行了比较。如Table 5 所示，Qwen2.5-Omni 的性能与 Qwen2.5-VL-7B 相当，并且在 MMMU、MathVision、MMBench-V1.1-EN、TextVQA、DocVQA 和 ChartQA 上取得了优于任何其他开源 Omni 模型的结果。此外，Qwen2.5-Omni 在大多数基准测试中也超越了 GPT-4o-mini。

"T6"

在**视觉定位（visual grounding）**方面，论文将 Qwen2.5-Omni 与 Qwen2.5-VL-7B 以及其他领先的 LVLM（包括 Gemini 和 Grounding-DINO）进行了比较。如Table 6 所示，模型在从框定位到特征点定位的大多数基准测试中均优于其他模型，并且在开放词汇目标检测中取得了 42.2mAP 的良好性能，这体现了模型强大的视觉定位能力。

5.1.4 Video→Text

"T7"

与Image→Text类似，论文将 Qwen2.5-Omni 与 Qwen2.5-VL-7B 及其他 Omni 模型在Video→Text上进行比较。如 Table 7 所示，Qwen2.5-Omni 的表现优于所有其他最先进的开源 Omni 模型和 GPT-4o-Mini，并且与 Qwen2.5-VL-7B 相比取得了更佳或更具竞争力的结果，这体现了其在视频理解方面的卓越性能。

5.1.5 Multimodality→Text

"T8"

如Table 8 所示，Qwen2.5-Omni 在 OmniBench 上取得了最佳性能，大幅超越其他 Omni 模型，这证明了模型在多模态理解方面的优势

5.2 Evaluation of X→Speech

5.2.1 零样本语音生成 (Zero-Shot Speech Generation)

"T9"

本小节将 Qwen2.5-Omni 与最先进的零样本语音合成 (TTS) 系统进行了比较。如上面的 Table 9 所示，Qwen2.5-Omni 展现出极具竞争力的性能，突显了其通过情境学习 (ICL) 开发的强大的语音理解和生成能力。此外，经过强化学习 (RL) 优化后，Qwen2.5-Omni 在生成稳定性方面表现出显著提升，在具有挑战性的测试数据集上，注意力错位、发音错误和不恰当停顿的现象显著减少。

5.2.2 单说话人语音生成 (Single-Speaker Speech Generation)

"T10"

本小节比较了说话人微调前后的 Qwen2.5-Omni 模型，并与人工录音进行了比较。如 Table 10 所示，经过说话人微调的 Qwen2.5-Omni 能够更精确地捕捉目标说话人细微的韵律风格，同时保留基础模型提供的基础稳定性，在主观和客观指标上均实现了接近人类水平的性能。

最后总结一下，Qwen2.5-Omni的诞生，标志着多模态AI从「功能堆砌」走向「原生融合」。其端到端架构、时序对齐技术、轻量化设计，为行业提供了可复用的工程范式。随着模型开源与生态完善，这场始于技术实验室的「全模态革命」，正以惊人速度渗透至千行百业——未来的人机交互，或将不再需要「选择输入模态」，因为AI已能像人类一样，自然地「看、听、说、想」。一篇很惊艳的工作。

《Qwen2.5-Omni：重新定义端到端全模态大模型的技术范式》 论文解读

文章目录