当前位置：首页 > news >正文

大模型 SFT 中的关键技术总结学习

news 来源：原创 2025/9/17 16:29:49

文章目录

微调策略
- LoRA 微调
- - 核心思想
  - 具体实现过程
  - 超参数与技巧
  - 实现步骤
- QLoRA 相关技术
- - 1. 核心原理
  - 2. 技术优势
  - 3. 实现流程
  - 4. 应用场景
- P-tuning
- - 核心思想
  - 关键技术点
  - 训练流程
  - 优点
  - 应用场景
- P-tuning v2
- Prefix Tuning
- - 一、关键概念
  - - 前缀（Prefix）
    - 虚拟标记（Virtual Token）
  - 二、核心原理
  - 三、技术实现要点
  - - 训练过程
  - 四、与传统微调对比优势
  - 五. 实践建议
- Adapter Tuning

微调策略

 全参数微调（Full Parameter Fine-Tuning): 更新模型的所有参数，适用于高质量、大规模任务数据。
部分参数微调（Parameter-Efficient Fine-Tuning, PEFT）:
- LoRA（Low-Rank Adaptation）: 通过低秩矩阵调整权重，减少计算开销。
- QLoRA：结合量化和低秩适配，进一步提升效率。
- 提示微调（P - Tuning） ：通过在输入中添加可训练提示向量，引导模型学习特定任务模式，不改变模型主体参数，轻量级微调方式，能有效利用预训练模型知识，适应多种任务。
- P-Tuning v2：仅微调与提示（prompt）相关的参数。
- 冻结微调（Freeze Fine-Tuning） ：冻结部分层（如底层），仅微调顶层或新增任务头。

LoRA 微调

LoRA（Low - Rank Adaptation，低秩适应）是一种用于高效微调大型神经网络的技术，尤其适用于直接微调整个网络参数成本高昂或不切实际的情况。以下是其原理的详细解释：

从矩阵角度理解秩

在矩阵理论中，矩阵的秩是指矩阵中线性独立的行或列的最大数目。对于一个权重矩阵，如果秩较低，意味着矩阵中的信息冗余度较低，其自由度也较低，可以用更紧凑的形式来表示。在大型神经网络中，模型的权重矩阵通常规模巨大且是满秩的，这意味着存储和计算成本都很高。

核心思想

LoRA 的核心思想是在冻结预训练模型权重的基础上，对模型的权重矩阵引入低秩结构，通过添加可学习的低秩矩阵来实现对模型行为的调整。在下游任务微调时，不改变预训练模型的原始权重，而是通过训练低秩矩阵，让模型学习特定任务的知识。

具体实现过程

假设预训练模型中的某个权重矩阵为 $W_0 \in \mathbb{R}^{d \times d}$ （d 为矩阵维度）。在 LoRA 中，不是直接对 $W_0$ 进行更新，而是将全参微调的增量参数矩阵 $\Delta W$ 表示为两个参数量更小的矩阵 A 和 B 的乘积，即：
$W_0 + \Delta W = W_0 + BA$

其中， $\in \mathbb{R}^{d \times r}$ 和 $\in \mathbb{R}^{r \times d}$ 为 LoRA 低秩适应的权重矩阵，秩 r 远小于 d 。这样，原本需要更新的参数量为 $\times d$ 的 $\Delta W$ ，现在变成了更新参数量为 $\times r \times d$ 的 A 和 B 。因为 $\ll d$ ，所以可训练参数数量大幅减少。

举例来说，如果一个模型的权重矩阵维度 $d = 1000$ ，传统全量微调要更新 $1000 \times 1000 = 1000000$ 个参数；若 $r = 10$ ，使用 LoRA 只需更新 $\times 10 \times 1000 = 20000$ 个参数，计算量和存储需求显著降低。

训练过程
- 初始化：矩阵 B 通常通过高斯函数初始化，即 $b_i \sim N(0, \sigma_b^2)$ ；矩阵 A 一般初始化为全零矩阵，即 $a_i = 0$ 。这样在训练开始前， $B A = 0$ ，微调从预训练权重 $W_0$ 开始。
- 前向传播：给定输入 $\in \mathbb{R}^d$ ，添加 LoRA 后的输出 $\in \mathbb{R}^d$ 为：
  $(W_0 + \Delta W)x = W_0x + BAx$
  这里， $\Delta h = BAx$ ，它代表了由于低秩矩阵带来的输出变化。
- 反向传播：在训练过程中，原始参数 $W_0$ 被冻结，即不计算其对应梯度 $\frac{\partial L}{\partial W_0}$ ，只计算低秩矩阵 A 和 B 的梯度，并根据梯度下降等优化算法更新 A 和 B 的参数。
- 推理阶段：推理时，可直接将训练好的低秩矩阵 BA 与预训练权重 (W_0) 合并，即最终推理时使用的权重为 $W_0 + BA$ ，因此相比原始模型在推理时不存在额外开销。

超参数与技巧

秩 r 的选择：秩 r 是 LoRA 中一个关键超参数。较小的 r 可以节省大量参数和显存，实现更快的训练速度，但可能会减少低秩矩阵中捕获的特定于任务的信息，甚至导致过拟合；较大的 r 能捕获更多任务信息，但会增加计算和存储成本。需通过实验找到精度和性能的平衡。
一般情况下，从 r=8 开始实验，复杂任务可增至 32。
学习率：设为全微调的 10-100 倍（如 2e−4）。
目标模块：优先微调注意力层的 Query/Value 矩阵
权重系数 $\alpha$ ：实际实现时， $\Delta W = BA$ 会乘以系数 $\frac{\alpha}{r}$ 后再与原始预训练权重 $W_0$ 合并，即 $(W_0 + \frac{\alpha}{r}\Delta W)x$ 。系数 $\alpha$ 是一个超参，它决定了低秩适应的权重矩阵 BA 在最终模型参数中所占的比例。

实现步骤

安装依赖：pip3 install transformers peft。
配置参数：选择目标模块（如 q_proj, v_proj）、秩 r（通常 4-64）和缩放系数 α。

from peft import LoraConfig
config = LoraConfig(r=8, lora_alpha=32, target_modules=["q_proj", "v_proj"])

3. 训练与部署：使用 Trainer 微调后，可保存适配器（仅几 MB）或合并到原模型。

QLoRA 相关技术

QLoRA（Quantized Low-Rank Adaptation）是一种结合量化技术与低秩适配的高效大模型微调方法，能够在极低显存占用下保持接近全参数微调的性能。以下是其核心技术要点

1. 核心原理

4-bit NormalFloat（NF4）量化
针对预训练权重通常服从正态分布的特点，QLoRA提出NF4量化方法：
- 通过分位点量化（Quantile Quantization）将权重映射到4-bit空间，理论上对正态分布数据是最优的量化方式。
- 公式：将权重归一化到[−1,1]后，按理论正态分布分位点划分16个区间，每个区间映射为一个4-bit整数值，显著减少存储需求。
双重量化（Double Quantization)
对量化常数（Scale）进行二次量化，进一步节省存储空间。例如，第一次量化常数用FP16存储，第二次将其量化为8-bit，平均每个参数节省0.37 bits。
分页优化器（Paged Optimizers）
利用NVIDIA统一内存技术，在GPU显存不足时将优化器状态临时卸载到CPU内存，避免内存溢出。

关于双重量化：

第一次量化（主权重量化）

分块处理：将权重矩阵 $W$ 划分为64个参数/块
4-bit NF4量化：每块内参数映射到4-bit空间
存储缩放因子：每块需存储FP32格式的 $C_{\text{max}}$ （块内绝对值最大值）
- 示例：65B模型需约8TB存储 $C_{\text{max}}$

第二次量化（缩放因子量化）

二次分块：将 $C_{\text{max}}$ 集合按256个/块分组
8-bit FP8量化：对 $C_{\text{max}}$ 进行二次压缩
存储优化： $C_{\text{max}}$ 存储空间减少50%（FP32→FP8）

2. 数学表达

量化方式	存储成本计算公式	每参数成本	空间节省
单次量化	$\frac{32}{64}=0.5\text{ bits}$	0.5 bits	-
双重量化	$\frac{8}{64}+\frac{32}{64×256}≈0.127\text{ bits}$	0.127 bits	75%

3. 技术优势

✅ 显存效率：65B模型 $C_{\text{max}}$ 存储从8TB→4TB
✅ 精度保留：经反量化后精度损失<2%
✅ 硬件适配：支持消费级GPU运行大模型微调

2. 技术优势

显存效率：
- 65B参数模型微调仅需48GB显存（4-bit量化+LoRA），而全参数微调需780GB。
- 7B模型可在消费级显卡（如RTX 3090）上运行，显存占用低至5-6GB。
性能保留：
通过NF4量化和LoRA适配器补偿，微调后性能与16-bit全参数微调相当（差距<2%）。

3. 实现流程

模型加载：以4-bit NF4格式加载预训练权重，冻结原始参数。
插入LoRA适配器：在注意力层（如q_proj、v_proj）添加低秩矩阵（秩r=8∼64），仅训练这部分参数。
混合精度训练：计算时反量化为BF16进行矩阵运算，适配器权重保持FP16。
示例代码（Hugging Face集成）：

from transformers import BitsAndBytesConfig
bnb_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4")
model = AutoModel.from_pretrained("model_name", quantization_config=bnb_config)

4. 应用场景

资源受限环境：如学术研究或边缘设备上的大模型微调。
多任务适配：不同任务可独立训练QLoRA适配器，动态加载

P-tuning

核心思想

传统的模型微调方法通常需要调整预训练模型的大量参数，这不仅计算成本高，还可能导致过拟合问题。P-tuning 的核心思想是在输入中插入可训练的提示向量，让模型根据这些提示向量学习如何完成特定任务。这样，只需调整少量的提示向量参数，就可以使模型适应不同的下游任务，大大减少了计算资源和训练时间。

关键技术点

提示向量设计
连续提示向量：P-tuning 使用连续的向量来表示提示，而不是传统的离散文本提示。这些连续向量可以直接在模型的嵌入空间中进行训练，使得模型能够更好地理解和利用提示信息。
可训练性：提示向量是可训练的参数，在微调过程中，通过反向传播算法更新这些向量的值，以优化模型在特定任务上的性能。
提示插入位置
输入层插入：通常将提示向量插入到输入序列的开头或其他合适的位置。例如，在文本分类任务中，可以将提示向量放在输入文本的前面，作为模型处理文本的额外引导信息。
自适应调整：根据不同的任务和模型架构，提示向量的插入位置可以进行自适应调整，以达到最佳的效果。

输入改造：
对于输入句子 “who are you” ，P-Tuning 会在其前面拼接一组可训练的连续向量（例如 [P1][P2]…[Pn] ），形成新的输入：

$X' = [P_1, P_2, ..., P_n; "who", "are", "you"]$

其中 $P_i$ 是通过反向传播优化的向量，与词嵌入维度相同（如 768 维）。训练目标：
仅更新这些 Prompt Embeddings 和任务相关层（如分类头），冻结预训练模型的其他参数

任务特定提示学习
提示学习目标：在微调过程中，定义一个与特定任务相关的损失函数，通过最小化该损失函数来更新提示向量。例如，在文本分类任务中，可以使用交叉熵损失函数来训练模型。
联合训练：提示向量的学习可以与模型的其他部分（如解码器）联合进行，使得模型能够更好地适应任务需求。

训练流程

初始化提示向量：随机初始化提示向量，这些向量将作为模型输入的一部分。
构建输入序列：将提示向量与原始输入文本拼接成一个完整的输入序列，输入到预训练模型中。
前向传播：模型对输入序列进行处理，输出预测结果。
计算损失：根据任务的目标，计算预测结果与真实标签之间的损失。
反向传播：通过反向传播算法，计算损失函数对提示向量的梯度，并更新提示向量的值。
重复训练：重复步骤 2 - 5，直到模型在验证集上的性能达到满意的程度。

优点

轻量级微调：只需调整少量的提示向量参数，无需大规模调整模型的原始参数，大大减少了计算资源和训练时间。
跨任务泛化性：由于只调整提示向量，模型的核心参数保持不变，因此 P-tuning 具有较好的跨任务泛化能力，可以在不同的下游任务之间快速迁移。
避免过拟合：相比于传统的全参数微调方法，P-tuning 减少了可训练参数的数量，降低了过拟合的风险。

应用场景

资源受限环境：在计算资源有限的设备上进行模型微调，如移动设备、边缘设备等。
快速任务适应：当需要快速将模型应用到新的任务时，P-tuning 可以通过调整提示向量，快速使模型适应新任务。
多任务学习：在多任务学习场景中，P-tuning 可以通过为每个任务设计不同的提示向量，实现模型在多个任务上的高效学习。

P-tuning v2

P - tuning v2 在 Transformer 每一层插入 Prompt 是对 P - tuning 技术的改进，旨在更有效地利用预训练语言模型的能力。以下是详细解释：

背景
在自然语言处理中，Transformer 架构的预训练语言模型在各种任务上取得了显著成果。然而，将这些模型应用于特定任务时，通常需要进行微调以适应任务的特点。P - tuning v2 就是一种在微调过程中，通过在 Transformer 的每一层插入可学习的 Prompt 来提高模型性能的方法。
具体操作

Prompt 表示：P - tuning v2 中的 Prompt 是一系列可学习的向量。这些向量与输入文本的嵌入向量具有相同的维度，并且在训练过程中会不断调整，以引导模型更好地完成任务。
插入位置：与原始的 P - tuning 不同，P - tuning v2 不仅仅在输入层插入 Prompt，而是在 Transformer 的每一层都插入 Prompt。具体来说，在每一层的输入之前，将相应的 Prompt 向量与该层的输入向量进行拼接。这样，Prompt 就能够在模型的每一层都对信息处理产生影响，使得模型能够更全面地利用 Prompt 所携带的任务相关信息。

层级插入：
在 Transformer 的每一层（包括 Self-Attention 和 FFN 层）的输入前添加可学习的 Prompt Embeddings（橙色块），与原始输入（蓝色块）拼接后参与计算。

数学表示：对于第i层，输入变为 $X_i' = [P_i; X_i]$ ，其中 $P_i$ 是该层的 Prompt 向量。

参数高效性：仅需调整 0.1%-3% 的参数量（每层 Prompt），远低于全量微调。

作用机制

引导信息流动：在 Transformer 中，每一层都对输入进行逐步的特征提取和语义理解。通过在每一层插入 Prompt，可以在不同的抽象层次上引导模型的信息处理过程。Prompt 可以作为一种额外的上下文信息，帮助模型更好地聚焦于任务相关的信息，从而更准确地进行特征提取和语义推理。
增强模型适应性：每一层的 Prompt 都可以根据任务的特点和数据的分布进行自适应调整。在底层，Prompt 可以帮助模型更好地处理输入文本的原始特征，如词汇和句法信息；在高层，Prompt 可以引导模型关注更抽象的语义和任务特定的信息，从而使模型能够更好地适应各种不同的任务需求。

优点

更精细的控制：在每一层插入 Prompt 使得对模型的控制更加精细。相比于只在输入层插入 Prompt，这种方法能够更全面地影响模型的信息处理过程，从而更好地利用模型的多层结构和丰富的表示能力。
提高性能：通过在每一层都引入任务相关的提示信息，模型能够更准确地学习到任务的模式和规律，从而在各种自然语言处理任务上取得更好的性能，例如在文本分类、问答系统、文本生成等任务中，P - tuning v2 通常能够优于传统的微调方法以及只在输入层插入 Prompt 的 P - tuning 方法。
更好的泛化能力：每一层的 Prompt 都可以根据不同的任务和数据进行自适应调整，这使得模型具有更好的泛化能力。它能够在面对新的任务或数据时，更灵活地利用 Prompt 信息来适应变化，减少对大规模标注数据的依赖，提高模型在不同场景下的适用性。

与P-Tuning v1的对比

特性	P-Tuning v1	P-Tuning v2
提示位置	仅输入层	每一层
参数占比	0.01%	0.1%-3%
任务通用性	仅适用于简单NLU任务	支持序列标注等复杂任务
优化方式	使用LSTM/MLP重参数化	直接优化Prompt，移除编码器

关于 P-tuning 的重参数化

重参数化概念
重参数化在这里是指通过引入额外的神经网络结构（LSTM 或 MLP ），以一种新的参数化方式来表示原本的 Prompt Embedding（提示嵌入）。其目的是对 Prompt Embedding 进行变换、调整和优化，让这些提示信息能更好地被预训练模型利用，以适应特定任务。
LSTM/MLP 具体作用
- LSTM（长短期记忆网络）
  - 处理序列相关性：LSTM 擅长处理具有序列相关性的数据。在 P - tuning 里，Prompt 可以看作是一个向量序列。LSTM 能捕捉这些提示向量之间的长短期依赖关系。比如在文本生成任务中，不同的提示词之间可能存在语义上的前后关联，LSTM 可以学习并利用这种关联，使生成的文本更符合逻辑。
    缓解局部最优问题：直接对 Prompt Embedding 进行随机初始化训练，容易陷入局部最优解。LSTM 通过其独特的门控机制（输入门、遗忘门、输出门），可以更好地控制信息的流动和记忆，对 Prompt Embedding 进行更有效的编码，引导优化过程，使模型更容易收敛到更好的解。
  - 共享参数与任务适应：在 P - tuning 中，LSTM 的参数可以在不同任务间共享，但针对不同任务会输出独特的 virtual token embeddings（虚拟词嵌入）。这样既减少了参数数量，又能让模型根据不同任务的需求，对提示信息进行特定的调整。
- MLP（多层感知机）
  - 增强非线性变换能力：MLP 由多个全连接层组成，能够对输入进行复杂的非线性变换。将其用于 Prompt Embedding 处理时，可以增加模型对提示信息特征提取和变换的能力。例如，通过多层的非线性映射，可以将原始的提示向量转换到更有利于模型进行任务学习的特征空间。
  - 鼓励离散性：在 P - tuning 中，使用带有 ReLU 激活函数的两层 MLP，有助于鼓励 Prompt Embedding 的离散性。这在一定程度上可以让模型学习到更具区分度的提示特征，提升提示信息对模型预测的影响力。
整体流程

首先有一组可学习的 Prompt Embedding 作为输入。
将这些 Prompt Embedding 输入到 LSTM 和 MLP 中，LSTM 捕捉序列关联，MLP 进行非线性变换和特征提取，对 Prompt Embedding 进行重新编码和调整。
经过 LSTM/MLP 重参数化处理后的提示向量，再输入到预训练模型（如 Transformer ）中参与后续的计算，引导模型完成特定任务。

不过在 P - tuning v2 中，发现重参数化（包括 LSTM/MLP 这种方式）带来的改进较小，尤其是对于较小的模型，还可能影响模型表现，所以移除了这种重参数化编码器。

(1) LSTM 重参数化

结构：双向 LSTM + MLP

# Hugging Face P-Tuning 示例
prompt_encoder = nn.Sequential(nn.LSTM(embedding_dim, hidden_size, bidirectional=True),nn.Linear(hidden_size * 2, embedding_dim)
)

优势：
捕捉 Prompt 序列的时序依赖关系，适合自然语言风格的提示优化。

(2) MLP 重参数化

结构：多层感知机（含 ReLU 激活）

prompt_encoder = nn.Sequential(nn.Linear(embedding_dim, hidden_size),nn.ReLU(),nn.Linear(hidden_size, embedding_dim)
)

优势：
计算效率更高，适合简单任务。

Prefix Tuning

Prefix Tuning（前缀微调）是一种参数高效微调（Parameter - Efficient Fine - tuning, PEFT）方法，旨在以较低的计算成本使预训练语言模型适配特定任务。以下是其详细介绍：

一、关键概念

前缀（Prefix）

位于输入序列前的可训练向量序列，是 Prefix Tuning 的核心。这些向量不是自然语言形式，而是抽象的、连续的可学习表示，用于传递任务特定信息，引导模型生成符合任务需求的输出。

虚拟标记（Virtual Token）

前缀向量在模型中被视为 “虚拟输入标记”，参与注意力计算，影响模型对输入信息的处理和生成。

二、核心原理

Prefix Tuning 通过在模型输入前添加可训练的连续向量序列（Prefix）来引导模型行为。具体如下：

冻结预训练模型参数
预训练模型已在大规模数据上学习到通用语言知识，Prefix Tuning 在微调时冻结其参数，避免破坏这些知识，仅优化前缀向量。

添加可训练前缀向量
在模型输入序列前添加可训练的前缀向量，不同任务可学习到不同的前缀表示。以文本生成任务为例，合适的前缀向量能引导模型生成符合特定风格、主题或格式要求的文本。

参与模型计算
这些前缀向量作为 “虚拟标记” 参与模型的注意力计算等过程，让模型在处理输入时考虑前缀携带的任务相关信息，调整输出。

三、技术实现要点

修改后的注意力计算：

$\quad \text{Attention}(Q, [P_K; K], [P_V; V])$

前缀向量设计

添加位置
- 对于解码器模型（如 GPT），仅在解码器输入前添加前缀。
- 对于编码器 - 解码器模型（如 BART），在编码器和解码器输入前均添加前缀。

模型类型	输入改造公式	说明
自回归模型(GPT)	( z = [PREFIX; x; y] )	前缀影响编码和生成
编码器-解码器	( z = [PREFIX; x; PREFIX’; y] )	分别添加Encoder/Decoder前缀

长度确定
- 前缀长度（虚拟标记数量）是超参数，一般取值在 20 - 100，需根据任务复杂度和计算资源确定。
MLP 分解
- 为使训练更稳定，常将前缀参数分解为更小的嵌入层和 MLP 层（多层感知机）。这能减少参数量，提升训练稳定性，例如将原始前缀参数 $P_P$ 进行分解。

训练过程

加载预训练模型
- 用 Hugging Face 的 transformers 库等工具加载模型，并冻结所有参数。
插入前缀适配器
- 定义前缀长度等参数，插入前缀模块。例如使用 PEFT 库时，配置 PrefixTuningConfig，设置任务类型、前缀长度、是否使用 MLP 分解等参数，再通过 get_peft_model 插入适配器。
配置训练参数
- 设置学习率（常低于全量微调，如 $1 e - 4$ 到 $5 e - 5$ ）、批次大小（可依显存适当增大）等超参数。
训练与评估
- 训练中仅优化前缀参数，监控生成质量指标（如文本生成任务用 BLEU、ROUGE）。
推理部署
- 推理时固定前缀参数，输入文本加上前缀向量后传入模型，生成任务特定输出。

from peft import PrefixTuningConfigconfig = PrefixTuningConfig(task_type="SEQ_2_SEQ_LM",num_virtual_tokens=20,  # 前缀长度prefix_projection=True, # 启用MLP重参数化encoder_hidden_size=768 # MLP隐藏层维度
)

四、与传统微调对比优势

特性	Prefix-Tuning	P-Tuning v2	Prompt Tuning
参数位置	所有层	所有层	仅输入层
适用架构	生成任务	NLU/NLG通用	大模型NLU
参数量	0.1%-1%	0.1%-3%	<0.1%
重参数化	MLP	无	无

参数高效

传统微调需调整模型全部参数，计算成本高；Prefix Tuning 仅优化前缀向量相关参数，通常只需优化约 $1\%$ 的参数（远小于全量微调），大幅降低计算和存储需求。
减少过拟合风险

由于大部分预训练模型参数不变，Prefix Tuning 在小数据集上微调时，过拟合风险更低。
任务适配灵活

可针对不同任务学习不同前缀，快速适配多种下游任务，无需重复训练整个模型。
可用于闭源模型

因不改变模型主体参数，对于一些未开源、无法直接访问内部参数的模型，也能应用 Prefix Tuning 进行任务适配。

五. 实践建议

前缀长度通常选择10-20个token
初始化使用任务相关文本编码更稳定
复杂任务建议结合多任务学习策略

Adapter Tuning

Adapter Tuning（适配器微调）是一种参数高效的迁移学习方法，通过在预训练模型（如 BERT、GPT 等）中插入小型可训练模块（Adapter 层），仅调整这些模块的参数，而冻结主模型参数，从而显著降低计算和存储成本。以下是其核心要点：

核心原理
- 结构设计：每个 Adapter 层包含下采样（Down-Projection）、非线性激活（如 ReLU/GELU）和上采样（Up-Projection）模块，形成瓶颈结构（Bottleneck Layer）。例如，输入维度 d=768 可压缩到 m=64，参数量仅为 2md+2d（远小于全连接层的 d²）。
- 残差连接：Adapter 输出与原始输入相加，确保训练初期模型性能稳定。
优势
- 参数高效：仅需 0.5%-8% 的额外参数（如 BERT-Large 仅增加约 1.5M 参数）。
- 多任务适配：通过插入不同 Adapter 模块实现多任务并行，无需保存独立模型。
- 训练速度快：训练时间仅为全量微调的 1/10 至 1/100。
技术变种
- AdapterFusion：分两阶段训练，先独立训练各任务 Adapter，再学习组合多个 Adapter 的知识，提升目标任务性能。
- AdapterDrop：动态移除部分 Adapter 层以减少推理开销，效率可提升 39%。
- LoRA：通过低秩矩阵分解进一步减少参数量（如 1%），适合极大模型（如 GPT-3）。

AdapterFusion 是一种针对多任务学习的参数高效微调方法，通过两阶段训练整合多个任务的知识，同时避免灾难性遗忘。以下是其核心要点：

3.1. 两阶段训练机制

知识提取阶段：独立训练各任务的 Adapter 模块（如 NLI、STS 等），冻结预训练模型参数。可采用两种策略：
- ST-A（单任务适配器）：各任务独立训练，互不干扰。
- MT-A（多任务适配器）：联合优化所有任务，但可能因任务差异导致性能不均衡。
知识组合阶段：固定预训练参数和 Adapter 参数，引入 AdapterFusion 层（类似 Attention 机制），动态加权组合不同 Adapter 的输出。公式如下：
$\text{Output} = \text{SoftMax}\left(\frac{QK^T}{\sqrt{d}}\right)V$
其中 $Q$ 为 Transformer 层输出， $K / V$ 来自各任务 Adapter。

3.2. 结构设计

AdapterFusion 层：每层 Transformer 插入一个共享的 Attention 模块，参数包括 (Q/K/V) 矩阵，通过上下文动态分配权重。
残差连接：保留 Adapter 的恒等映射初始化，确保训练稳定性。

应用场景
- 文本分类/机器翻译：在 BERT 或 NMT 模型中插入语言/任务特定 Adapter，保留通用知识的同时适配新任务。
- 跨领域迁移：如医疗、法律等领域的定制化模型。

实现示例（基于 Hugging Face）

from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
model.add_adapter("task_name", config={"reduction_factor": 12})  # m=64
model.train_adapter("task_name")  # 仅训练 Adapter 参数

对比其他方法

方法	参数量	计算效率	适用场景
全量微调	100%	低	资源充足的单一任务
Adapter Tuning	0.5%-8%	高	多任务/资源受限场景
LoRA	~1%	极高	极大模型（如 GPT-3）

挑战
推理延迟：Adapter 层增加前向传播分支，可能略微降低推理速度。
结构设计：需平衡瓶颈维度 m 与性能，过小可能影响效果。

文章目录

微调策略

LoRA 微调

核心思想

具体实现过程

超参数与技巧

实现步骤​

QLoRA 相关技术

1. 核心原理

2. 技术优势​

3. 实现流程​

4. 应用场景​

P-tuning

核心思想

关键技术点

训练流程

优点

应用场景

P-tuning v2

Prefix Tuning

一、关键概念

前缀（Prefix）

虚拟标记（Virtual Token）

二、核心原理

三、技术实现要点

训练过程

四、与传统微调对比优势

五. 实践建议

Adapter Tuning

相关文章：

实现步骤

2. 技术优势

3. 实现流程

4. 应用场景