当前位置：首页 > news >正文

Diffusion Transformer（DiT）

news 来源：原创 2025/8/18 18:12:04

扩散模型的核心思想：Diffusion Models是一种受到非平衡热力学启发的生成模型，其核心思想是通过模拟扩散过程来逐步添加噪声到数据中，并随后学习反转这个过程以从噪声中构建出所需的数据样本。

DiT的架构：DiT架构基于Latent Diffusion Model（LDM）框架，采用Vision Transformer（ViT）作为主干网络，并通过调整ViT的归一化来构建可扩展的扩散模型。如下图所示：
在这里插入图片描述

The Diffusion Transformer (DiT) architecture

Diffusion Model 是基础理论框架（如DDPM）。
LDM 是 Diffusion Model 的高效改进版，引入潜在空间（Latent Space）降低计算成本。
DiT 是新一代架构，用 Transformer 替代 UNet，代表扩散模型的未来方向（如SD3、Sora）。

处理过程

DiT的处理过程主要包括以下几个阶段：

数据准备和预处理：将输入的图像或视频数据转换为模型可以处理的格式。例如，对于图像，会将其切分成固定大小的patches（小块），然后将这些patches转换为特征向量；对于视频，先通过视频压缩网络（视频编码器）将视频数据压缩到一个低维度潜在空间中，得到视频内容的紧凑表征，再将压缩后的视频表征分解成一系列的时空补丁，这些补丁被视为Transformer模型的输入tokens。
噪声引入：在数据预处理后的特征向量上逐步引入噪声，形成一个噪声增加的扩散过程。这个过程通常遵循一定的数学分布，如高斯分布，噪声的程度由一个时间步长变量 $t$ 控制。在 $t = 0$ 时， $x_0$ 代表原始图像或视频的潜在表示；随着 $t$ 逐渐增大，数据中的噪声逐渐增多，到 $t = 1000$ 时， $x_{1000}$ 几乎是纯噪声。
模型训练：使用引入了噪声的特征向量作为输入，训练DiT模型。模型的目标是学习如何逆转噪声增加的过程，即从噪声数据恢复出原始数据。DiT接受带有噪声的补丁和相应的条件信息（如文本提示）作为输入，通过训练学习去除噪声并恢复出原始的“干净”补丁。在训练过程中，通常会使用损失函数来衡量模型预测的噪声与实际添加的噪声之间的差异，然后通过优化算法来调整模型的参数，以最小化损失函数。
图像或视频生成：在模型训练完成后，可以通过输入噪声数据（或随机生成的噪声）到模型中，经过模型的处理后生成新的图像或视频。具体来说，从纯噪声开始，按照一定的采样策略，逐步利用模型去除噪声，生成接近原始数据的样本。例如，从一个随机的噪声向量开始，通过多次迭代，每次迭代都根据当前的噪声状态和模型的参数来预测下一个更接近“干净”状态的向量，最终得到生成的图像或视频的潜在表示。如果是视频生成，还需要将恢复的“干净”时空补丁重新组合成连贯的视频。
输出调整：生成的图像或视频内容可以根据需要调整大小和格式，以适应不同的分辨率、持续时间和宽高比需求。例如，调整图像的分辨率以适配不同的显示设备，或者调整视频的时长和宽高比以满足特定的应用场景。

上述过程既包含训练，也包含推理。具体如下：

训练：上述内容中的“数据准备和预处理”“噪声引入”以及“模型训练”步骤属于训练过程。在训练阶段，模型通过学习大量带有噪声的数据以及相应的条件信息，来掌握去除噪声、恢复原始数据的能力，不断调整自身的参数以最小化损失函数，从而逐渐优化模型的性能。
推理：“图像或视频生成”和“输出调整”步骤属于推理过程。在推理阶段，模型利用训练好的参数，对输入的噪声数据（或随机生成的噪声）进行处理，逐步生成新的图像或视频，并根据实际需求对生成的结果进行调整。

详细步骤

Diffusion Transformers (DiTs) 是一种结合了扩散模型和Transformer架构的新型生成模型，其处理过程主要分为以下几个关键步骤：

1. 输入预处理（Patchify）

Patchify是将空间输入转换为序列化Token的核心预处理层。
DiT基于Vision Transformer (ViT)架构，首先将输入的潜在表示（latent representation）分割成不重叠的图像块（patches）。

输入图像 $\in \mathbb{R}^{H \times W \times C}$ 被划分为非重叠的 $\times P$ patches，展平为序列 $\in \mathbb{R}^{N \times (P^2 \cdot C)}$ ，其中 $\frac{HW}{P^2}$ 是Token数量。
每个Patch通过线性投影（learnable projection）映射为隐向量（即Token），类似ViT。

在这里插入图片描述
shape I × I × C ：VAE编码器输出的空间表示（noised latent）通常具有固定的形状。对于输入为 $256 \times 256 \times 3$ 的RGB图像，经过VAE编码器压缩后，输出的潜在空间表示zzz的形状为 $32 \times 32 \times 4$ 。

输入处理：
DiT的输入是一个空间表示 $z$ （对于256×256×3的图像， $z$ 的形状为32×32×4）。DiT的第一层是 “Patchify”，它将空间输入转换为由 $T$ 个Token组成的序列，每个Token的维度为 $d$ 。具体实现方式是对输入中的每个Patch进行线性嵌入（Linear Embedding）。

位置编码：
在Patchify之后，我们对所有输入Token应用标准的ViT频率位置编码（正弦-余弦版本）。

Token数量 $T$ 与Patch大小 $p$ 的关系：

Patchify生成的Token数量 $T$ 由超参数 $p$ （Patch大小）决定。
如图4所示， $p$ 减半会使 $T$ 变为原来的4倍，从而导致Transformer的总计算量（GFLOPs）至少增加4倍。
但需要注意的是，调整 $p$ 不会显著影响下游模型的参数量，因为参数主要取决于隐藏层维度 $d$ 和网络深度。

DiT设计中的 $p$ 选择：
在DiT的设计空间中，我们测试了 $p = 2, 4, 8$ 三种不同的Patch大小，以权衡计算效率和模型性能。

关键点总结

Patchify的作用：将空间输入（32×32×4）转换为Token序列（ $T$ 个，维度 $d$ ）。
$p$ 的影响：
- 计算量（GFLOPs）： $p$ 越小， $T$ 越大，计算量显著增加（ $\propto 1/p^2$ ）。
- 参数量：不受 $p$ 影响，主要由Transformer结构决定。
DiT实验设定：测试 $p = 2, 4, 8$ ，以优化计算与性能的平衡。

（注：数学公式和术语保持原样，如 $T$ 、 $p$ 、GFLOPs等，确保技术准确性。）

2. 位置编码与条件嵌入

位置编码：采用ViT中的正弦-余弦位置编码，为token序列添加空间位置信息，确保模型能理解图像块的空间关系。
条件嵌入：扩散模型需要 时间步 $t$ 和类别标签 $c$ 等条件信息。DiT通过以下方式融合条件：
- 自适应层归一化（adaLN）：根据条件动态调整归一化参数。
- 交叉注意力机制：将条件信息作为额外的token序列，通过注意力机制与图像token交互。
- 时间步 $t$ ：通过正弦位置编码或可学习嵌入（如MLP）转换为向量 $t_{emb}$ 。
- 条件信息（如类别标签、文本描述）：通过额外的嵌入层编码为 $c_{emb}$ 。
这些嵌入可能通过拼接或相加合并到图像Token中。

3. Transformer块处理

DiT的核心是由多个Transformer块堆叠而成，每个块包含：

多头自注意力（Multiple Self-Attention）：捕捉图像块之间的全局依赖关系，例如生成图像时协调不同区域的一致性。
前馈神经网络（FFN）：对注意力输出进行非线性变换，增强表达能力。
条件控制：通过adaLN-Zero等机制，将时间步和类别标签信息注入每一层，指导去噪过程。

DiT的Transformer层在ViT基础上扩展，关键设计包括：

自适应层归一化（AdaLN）
- 替代标准LayerNorm，将时间步 $t_{emb}$ 和条件 $c_{emb}$ 动态注入归一化层：
  $\text{AdaLN}(z) = \gamma(t_{emb}, c_{emb}) \cdot \frac{z - \mu(z)}{\sigma(z)} + \beta(t_{emb}, c_{emb})$
  其中 $\gamma, \beta$ 由时间/条件嵌入通过MLP生成。
多头自注意力（MSA）与MLP
- 标准Transformer结构，但可能引入交叉注意力（Cross-Attention）处理条件信息（如文本描述）。
Token交互与输出
- 所有Token通过多层Transformer块交互，最终输出预测的噪声 $\epsilon_\theta$ 或去噪后的图像 $x_0$ 。

4. 噪声预测与反向扩散（Transformer decoder）

训练阶段：DiT学习预测前向扩散过程中添加的噪声 $\epsilon_\theta(z_t, t, c)$ ，损失函数为噪声预测的MSE和协方差的KL散度。
采样阶段：（和推理可互换，均指模型生成数据的去噪过程）
1. 从随机噪声 $z_T$ 开始，逐步迭代去噪。
2. 每一步通过DiT预测噪声 $\epsilon_\theta(z_t, t, c)$ ，并更新潜在表示 $z_{t-1}$ 。
3. 最终得到去噪后的潜在表示 $z_0$ ，通过VAE解码器生成高质量图像。

5. 可扩展性与性能

DiT通过增加Transformer的深度、宽度或输入token数量（减小patch大小）提升模型复杂度（GFLOPs），实验表明更高的GFLOPs通常对应更低的FID（图像质量更高）。例如，DiT-XL/2在ImageNet 256×256任务中达到FID 2.27，超越传统U-Net架构的扩散模型。

总结

DiT通过Transformer的全局注意力机制和ViT的patch处理方式，解决了传统U-Net在长距离依赖和扩展性上的局限，成为扩散模型的新范式。其处理过程结合了条件控制、噪声预测和逐步去噪，适用于图像、视频等多种生成任务。

以下是针对论文中Diffusion Transformers (DiTs) 处理过程的详细解析，结合其架构设计目标和实现方法：

详细步骤2

1. 核心设计目标

保持Transformer的原始架构：DiT旨在尽可能遵循标准Transformer（如ViT）的设计，以保留其可扩展性（scaling properties）。
适配扩散模型：将Transformer作为扩散模型（DDPM）的主干，替代传统U-Net，专注于图像（空间数据）的生成任务。

2. 前向传播（Forward Pass）流程

输入处理

Patchify（图像分块）
- 输入图像 $\in \mathbb{R}^{H \times W \times C}$ 被划分为非重叠的 $\times P$ patches，展平为序列 $\in \mathbb{R}^{N \times (P^2 \cdot C)}$ ，其中 $\frac{HW}{P^2}$ 是Token数量。
- 每个Patch通过线性投影（learnable projection）映射为隐向量（即Token），类似ViT。
时间步与条件嵌入
- 时间步 $t$ ：通过正弦位置编码或可学习嵌入（如MLP）转换为向量 $t_{emb}$ 。
- 条件信息（如类别标签、文本描述）：通过额外的嵌入层编码为 $c_{emb}$ 。
- 这些嵌入可能通过拼接或相加合并到图像Token中（具体设计见下文）。

Transformer块设计

DiT的Transformer层在ViT基础上扩展，关键设计包括：

自适应层归一化（AdaLN）
- 替代标准LayerNorm，将时间步 $t_{emb}$ 和条件 $c_{emb}$ 动态注入归一化层：
  $\text{AdaLN}(z) = \gamma(t_{emb}, c_{emb}) \cdot \frac{z - \mu(z)}{\sigma(z)} + \beta(t_{emb}, c_{emb})$
  其中 $\gamma, \beta$ 由时间/条件嵌入通过MLP生成。
多头自注意力（MSA）与MLP
- 标准Transformer结构，但可能引入交叉注意力（Cross-Attention）处理条件信息（如文本描述）。
Token交互与输出
- 所有Token通过多层Transformer块交互，最终输出预测的噪声 $\epsilon_\theta$ 或去噪后的图像 $x_0$ 。

输出头

预测的Token序列通过线性投影还原为Patch，再重组为图像空间格式。

3. DiT Design Space

论文中提到的DiT架构设计空间包含以下关键选择：

Token生成方式
- 标准ViT的线性投影 vs. 更复杂的嵌入（如卷积Patch嵌入）。
条件注入机制
- AdaLN（动态调节归一化参数）
- 交叉注意力（将条件作为额外的Key-Value对）
- Token拼接（直接拼接条件Token到图像Token序列）
Transformer块变体
- 基础块（标准MSA+MLP）
- 引入窗口注意力（Window Attention）以降低计算成本
- 使用Flash Attention优化长序列处理
噪声预测目标
- 直接预测噪声 $\epsilon$ （DDPM默认）
- 预测原始数据 $x_0$ （简化目标）

4. 训练与推理对比

阶段	输入	输出	关键操作
训练	噪声图像 $x_t$ + 时间步 $t$ + 条件	预测噪声 $\epsilon$	反向传播优化AdaLN和注意力权重
推理	纯噪声 $x_T$ + 时间步 $t$ + 条件	去噪图像 $x_{t-1}$	逐步迭代，依赖采样器（DDIM/DDPM）

5. 图示说明（参考论文Figure 3）

输入层：图像 → Patchify → 线性投影 → Token序列。
条件融合：时间步和条件嵌入通过AdaLN或交叉注意力注入。
Transformer堆叠：多个块处理Token序列，输出预测结果。
输出层：Token → 图像空间重建。

6. 关键创新点

架构简洁性：直接复用ViT，避免复杂设计（如U-Net的编码-解码结构）。
可扩展性：模型性能随参数量和数据规模稳定提升（符合Transformer的Scaling Law）。
条件灵活性：支持多种条件输入（文本、类别、掩码等）。

总结

DiT的处理过程通过Patch化输入、Transformer主干和动态条件注入，将扩散模型的去噪任务转化为序列预测问题。其设计保留了ViT的优雅性，同时通过AdaLN等机制适配生成任务，成为扩散模型领域的高效架构。

LDMs

（Latent Diffusion Models, LDMs）
核心思想：直接在高分辨率像素空间训练扩散模型计算成本过高。LDMs 在 DiTs 的架构中扮演着基础框架与效率优化核心的角色，潜在扩散模型（LDMs）采用两阶段方法解决该问题：
潜在扩散模型（Latent Diffusion Models, LDMs）通过两阶段训练策略显著降低了计算成本，同时保持了生成图像的高质量。以下是其核心流程和技术细节：

1. 两阶段训练流程

阶段一：预训练自动编码器（VAE）
使用变分自编码器（VAE）将高分辨率图像 $\in \mathbb{R}^{H \times W \times 3}$ 压缩为低维潜在表示 $\in \mathbb{R}^{h \times w \times c}$ （如 $64 \times 64 \times 4$ ），其中 $E$ 为编码器， $D$ 为解码器。此阶段通过感知损失（如LPIPS）和对抗损失优化，确保潜在空间保留语义信息并支持高质量重建。
阶段二：潜在空间扩散训练
在冻结的VAE编码器基础上，训练扩散模型（如U-Net）对潜在表示 $z$ 进行去噪。目标函数为：
$L_{LDM} = \mathbb{E}_{z,t,\epsilon} \left[ \|\epsilon - \epsilon_\theta(z_t, t)\|^2 \right]$
其中 $\epsilon_\theta$ 为噪声预测网络， $t$ 为时间步。相比像素空间扩散，计算量减少64倍（如 $512^2 \rightarrow 64^2$ ）。

2. 关键优势

计算效率：潜在空间操作大幅降低内存和计算需求（如Stable Diffusion的U-Net仅需处理 $64 \times 64 \times 4$ 张量），使高分辨率生成（如1024×1024）可在消费级GPU上实现。
条件生成灵活性：通过交叉注意力机制注入文本、边界框等条件（如CLIP文本编码器），支持多模态控制生成。
质量与速度平衡：DDIM等采样器允许跳过中间步骤（10-50步），加速推理而不显著降低质量。

3. 与像素空间扩散的对比

特性	潜在扩散模型 (LDM)	像素空间扩散模型
计算复杂度	低（潜在空间操作）	高（直接处理像素）
训练数据维度	压缩后潜在表示（如64×64×4）	原始图像（如512×512×3）
典型应用	Stable Diffusion, DALL·E 2	早期DDPM, Imagen
重建依赖	需预训练VAE	无需额外编码器

4. 应用与扩展

文本到图像：如Stable Diffusion结合CLIP文本编码器生成符合描述的图像。
超分辨率与修复：在潜在空间进行局部编辑或分辨率提升。
架构创新：DiT（Diffusion Transformer）等将Transformer引入潜在扩散，进一步优化长程依赖建模。

LDMs通过分离压缩与生成阶段，实现了效率与质量的平衡，成为当前生成式AI的主流框架。

潜在扩散模型（LDMs）在推理阶段的流程可分为以下步骤，结合了潜在空间操作与条件控制的高效生成：

LDMs在推理阶段的流程

1. 条件输入编码（如适用）

文本/图像条件处理：若需条件生成（如文本描述），输入条件 $y$ （如CLIP文本编码）通过专用编码器 $\tau_\theta$ 映射为中间表示，用于后续交叉注意力控制。

2. 潜在空间噪声采样

初始噪声生成：从标准高斯分布采样潜在噪声 $z_T \sim \mathcal{N}(0, I)$ ，维度为 $\times w \times c$ （如 $64 \times 64 \times 4$ ），远低于原始像素空间。

3. 迭代去噪（逆向扩散）

U-Net/Transformer去噪：通过时间步 $t = T$ 到 $t = 1$ 的迭代，模型预测噪声并更新潜在表示：
$z_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( z_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(z_t, t, \tau_\theta(y)) \right) + \sigma_t \epsilon$
其中 $\epsilon_\theta$ 为去噪网络（如U-Net或DiT）， $\alpha_t$ 为噪声调度系数。
条件注入：通过交叉注意力机制将 $\tau_\theta(y)$ 与 $z_t$ 融合，动态指导生成内容。

4. 潜在空间解码

VAE解码：最终去噪的潜在表示 $z_0$ 通过冻结的VAE解码器 $D$ 重建为像素空间图像：
$x = D(z_0)$
解码器保留训练阶段的权重，确保高分辨率细节还原。

5. 后处理（可选）

超分辨率或修复：部分流程可能叠加额外模块（如ESRGAN）进一步提升输出质量。

关键优化技术

采样加速：采用DDIM等非马尔可夫采样器，允许跳步生成（如20步替代1000步）。
显存效率：潜在空间操作降低显存占用约64倍，支持高分辨率生成（如1024×1024）。

LDMs通过分离压缩与生成阶段，在保证质量的同时显著提升推理效率，成为Stable Diffusion等工具的核心框架。

LDMs在训练阶段的流程

潜在扩散模型（LDMs）的训练流程分为两个核心阶段，结合了自编码器预训练与潜在空间扩散模型优化，具体如下：

1. 预训练自编码器（VAE）

目标：学习图像的高效低维表示（潜在空间 $z$ ），降低后续扩散模型的计算复杂度。
步骤：
1. 数据压缩：编码器 $E$ 将图像 $x$ 映射到潜在空间 $z = E (x)$ ，维度通常为 $64 \times 64 \times 4$ （远低于原始像素空间）。
2. 重建训练：解码器 $D$ 从 $z$ 重建图像 $\hat{x} = D(z)$ ，最小化重建损失（如MSE或感知损失）：
  $\mathcal{L}_{VAE} = \mathbb{E}_{x \sim p(x)} \|x - D(E(x))\|^2$
3. 冻结参数：训练完成后， $E$ 和 $D$ 的参数固定，仅用于后续潜在空间的编码与解码。

2. 训练潜在扩散模型（DM）

目标：在潜在空间 $z$ 中学习扩散与去噪过程，生成高质量潜在表示。
步骤：
1. 潜在变量加噪：对 $z_0 = E(x)$ 按时间步 $t$ 添加高斯噪声，生成 $z_t$ ：
  $z_t = \sqrt{\alpha_t} z_0 + \sqrt{1-\alpha_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$
  其中 $\alpha_t$ 为噪声调度系数（如线性或余弦调度）。
2. 噪声预测：U-Net或Transformer模型 $\epsilon_\theta$ 预测噪声 $\hat{\epsilon}$ ，输入为 $z_t$ 和时间步 $t$ （嵌入为高维向量）。
3. 条件控制（可选）：若需文本/图像条件 $y$ ，通过交叉注意力机制融合 $\tau_\theta(y)$ 与 $z_t$ ：
  $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V, \quad Q = W_Q \varphi_i(z_t), \ K,V = W_K, W_V \tau_\theta(y)$
4. 优化目标：最小化预测噪声与真实噪声的差异：
  $\mathcal{L}_{LDM} = \mathbb{E}_{z_0, \epsilon, t} \|\epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y))\|^2$
  通过梯度下降更新 $\epsilon_\theta$ 参数。

3. 关键设计

两阶段解耦：VAE与DM独立训练，避免联合优化的复杂性。
计算效率：潜在空间操作减少约64倍计算量，支持高分辨率生成。
条件扩展性：交叉注意力机制支持多模态控制（文本、布局等）。

总结

LDMs通过分离感知压缩（VAE）与语义生成（DM），在降低计算需求的同时保持生成质量。其训练流程的核心是潜在空间的高效扩散建模，为Stable Diffusion等应用奠定基础。

时间步

在扩散模型（Diffusion Models）和 Diffusion Transformers (DiTs) 中，时间步（timestep） 是一个核心概念，用于控制数据在扩散过程中的加噪（前向过程）和去噪（逆向过程）的进度。以下是详细解释：

1. 时间步的定义

时间步 $t$ 是一个离散变量，表示扩散过程中的第 $t$ 步（通常从 $t = 0$ 到 $t = T$ ）。
- $t = 0$ ：对应原始数据（如图像 $x_0$ ）。
- $t = T$ ：对应完全噪声（纯高斯噪声 $x_T$ ）。
在训练和推理中，时间步决定了当前数据 $x_t$ 的噪声程度，并指导模型如何逐步去噪。

2. 时间步的作用

(1) 前向扩散过程（加噪）

在训练时，时间步 $t$ 用于控制噪声的添加量。
例如，扩散公式：
$x_t = \sqrt{\alpha_t} x_0 + \sqrt{1-\alpha_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$
- $\alpha_t$ 是一个与 $t$ 相关的调度参数（如线性、余弦等），随 $t$ 增大而减小，噪声逐渐增强。
- 时间步 $t$ 决定了当前噪声强度和数据破坏程度。

(2) 逆向去噪过程（生成）

在推理时，模型需要根据时间步 $t$ 预测如何从 $x_t$ 去噪到 $x_{t-1}$ 。
- 时间步 $t$ 告诉模型当前处于生成过程的哪个阶段（早期需粗粒度去噪，晚期需细粒度修正）。
- 例如，DiT 通过时间步嵌入（timestep embedding）将 $t$ 编码为向量，输入Transformer以调节去噪行为。

3. 时间步的表示方法

时间步 $t$ 通常通过以下方式输入模型：

(1) 正弦位置编码（Sinusoidal Embedding）

类似Transformer的位置编码，将离散的 $t$ 映射为连续向量：
$\text{Embedding}(t) = [\sin(\omega_1 t), \cos(\omega_1 t), ..., \sin(\omega_d t), \cos(\omega_d t)]$
其中 $\omega_i$ 是预设的频率参数。

(2) 可学习的嵌入（MLP投影）

通过一个小型MLP将 $t$ 映射为高维向量：
$t_{emb} = \text{MLP}(t)$
（DiT论文中常用此方法）

(3) 自适应归一化（AdaLN）

在DiT中，时间步嵌入 $t_{emb}$ 可能用于动态调节层归一化（LayerNorm）的参数：
$\text{AdaLN}(z) = \gamma(t_{emb}) \cdot \frac{z - \mu(z)}{\sigma(z)} + \beta(t_{emb})$
其中 $\gamma, \beta$ 由时间步生成。

4. 为什么需要时间步？

动态调节去噪行为：
- 不同时间步需要不同的去噪策略（早期去噪强度大，后期微调细节）。
条件生成控制：
- 时间步作为条件输入，确保模型在生成过程中“知道”当前进度。
与噪声调度解耦：
- 时间步与噪声调度参数（如 $\alpha_t$ ）绑定，但模型只需学习时间步的映射，无需显式处理调度逻辑。

5. 在DiT中的具体应用

以DiT为例：

输入阶段：
- 时间步 $t$ 被编码为向量 $t_{emb}$ ，与图像Patch Token拼接或相加。
Transformer处理：
- 通过AdaLN或交叉注意力，将 $t_{emb}$ 注入每一层，动态调节特征归一化。
输出阶段：
- 模型根据 $t$ 预测当前步的噪声 $\epsilon_\theta(x_t, t)$ 或直接预测 $x_0$ 。

6. 时间步与噪声调度的关系

时间步 $t$ 是离散索引，而噪声调度（如 $\alpha_t, \beta_t$ ）是连续函数。
例如，在DDPM中：
[
\alpha_t = \prod_{s=1}^t (1 - \beta_s), \quad \beta_t \text{为预设的噪声方差表}
]
模型通过 $t$ 隐式地关联到调度参数，无需直接学习它们。

总结

时间步是扩散模型中协调加噪与去噪进度的“时钟”，在DiT中通过嵌入向量融入Transformer，使模型能够动态适应不同阶段的生成需求。它是连接扩散理论（噪声调度）与深度学习架构（如Transformer）的关键桥梁。