当前位置：首页 > news >正文

一文解析大语言模型量化技术

news 来源：原创 2025/7/16 23:32:44

一、为什么需要量化技术

1、数据规模

2、32位浮点数（FP32）

3、16位浮点数（FP16）

4、Bfloat16（BF16）

5.INT8（8位整数）和INT4（4位整数）

总结：

二、量化方法

1、对称量化：

2、非对称量化

3、量化后的计算

三、如何对神经网络量化

1、动态量化

2、静态量化

3、PyTorch代码示例

1.动态量化示例

2.静态量化示例：

四、量化感知训练

五、AWQ（激活感知权重量化）

量化就是将高精度数值转换为低精度数值，在大语言模型中，量化可以将32位浮点数转化位8位或者4位的低精度数据。在内存节省和资源开销方面推理数据方面得到不错的结果。

一、为什么需要量化技术

1、数据规模

在如今的大语言模型规模中，参数量的大小已经大到超乎想象，比如现在很火的DeepSeek-V3有671B(六千七百一十亿)的参数量、GPT-4有1760B(一万六千亿)的参数量等等。在如此大的参数量的情况之下如果运算的话那将是一个很耗时的工程了，如果参数都是32位的数据，那会异常庞大。所以我们需要用到量化的操作来降低计算工作量

2、32位浮点数（FP32）

FP32格式，每个数字都用32位（二进制，三十二个0、1）来表示，无论是超过了还是小于。这种格式将每个数分为：符号位(1位)、指数位(8位)和尾数(小数部分23位)。

计算：

比如：符号位(sign):0 指数位(exponent)10000010 尾数(mantissa)：01000000000000000000000

将上面的二进制还原成十进制后：value=(-1)**0x2(130-127)x(1+0.25)=10.0

范围：约 ±1.18×10⁻³⁸ 到 ±3.4×10³⁸

3、16位浮点数（FP16）

和上面一样，这里是用十六个二进制来表示，符号位(1位)、指数位(5位)和尾数(小数部分10位)。行对于FP32，它的精度不是那么精确，可能会造成误差，但是优势在于内存减半，计算量也减少了。

计算和上面一样的公式，范围：±5.96×10⁻⁸ ~ ±6.55×10⁴

4、Bfloat16（BF16）

BF16（Bfloat16）是一种 16 位浮点数格式，符号位（1位）、指数位（8位）、尾数位（7位）由 Google Brain 团队提出，专为 深度学习训练 设计。它在保持 FP32 的数值范围的同时，牺牲部分精度以提升计算效率。相较于FP32，它牺牲了一点精度，但计算效率是16位的。

计算方法：和上面一样

范围也和FP32一样：±1.18×10⁻³⁸ ~ ±3.4×10³⁸

5.INT8（8位整数）和INT4（4位整数）

上面介绍的是小数的表示方法，下面我们来看看整数的表示方法。INT8（8-bit 整数）和 INT4（4-bit 整数）是两种低精度数值格式，主要用于 深度学习推理加速 和 边缘计算，通过牺牲精度来大幅减少内存占用和计算开销。有符号范围：INT8：-128到127，INT4：-8 到 7无符号范围：UINT8：0到255，UINT4：0 到 15

在整数里面，有一个无符号和有符号的概念，无符号（uint）就是只能表示正数，有符号数（int）可以表示正负

举个例子：以加载Llama 13B为例，以FP32加载需要52GB内存，以FP16加载需要26GB，以int8加载需要13GB，以int4加载需要6.5GB。所以我们要找到一个合适的方法来加载参数以降低计算量和减少内存使用

总结：

特性	INT8	INT4	FP16	FP32
位数	8 bits	4 bits	16 bits	32 bits
内存占用	1 字节/参数	0.5 字节/参数	2 字节/参数	4 字节/参数
计算速度	极快（硬件加速）	最快（理论）	快	慢
精度	中等（需量化）	极低	较低（3-4位有效）	高（7位有效）
适用阶段	推理	推理/边缘计算	训练/推理	训练
硬件支持	广泛（GPU/TPU）	实验性（部分AI芯片）	主流 GPU	所有设备

二、量化方法

总的来说因为整数运算速度大于浮点数，所以量化就是将浮点数用整数来表示，同时减少量化后模型推理的误差。

但是数据表示我们又要用到浮点数，所以我们还需要一个方式来将整数变为浮点数，所以我们引入了反量化的概念。

1、对称量化：

顾名思义，对称肯定要有对称轴，所以我们要先找到对称轴(0)。比如给我们一组数据[1.21, -1.31, 0.22, 0.83, 2.11, -1.53, 0.79, -0.54, 0.84]，我们以int8为例，先找到这组数据中的绝对值最大值(2.11)，在用这个最大值除以表示范围，int8的范围是-128到127，为了简化计算，我们不要-128，取-127到127，那么就是2.11/127=0.016614，这个就是缩放系数

量化：将所有的数除以上面计算得到的缩放系数就得到了量化后的数组了,[73, -79,13,50,127,-92,48,-33,51]

反量化：将所有的数乘以缩放系数，这里会有一点损失

2、非对称量化

顾名思义：非对称就是没有对称轴，也就是我们要将浮点数映射到无符号整数上，因为无符号是从0开始的，没有负数，所有没有对称轴。

缩放系数：先找到这组数据的最大值和最小值，以上面那个例子：[1.21, -1.31, 0.22, 0.83, 2.11, -1.53, 0.79, -0.54, 0.84]，最大值：2.11，最小值：-1.53。然后最大值减去最小值除以范围：[2.11-（-1.53）]/255=0.0142745。

相比于上面的对称量化，这里还需要求：zero_point= - 最小值/缩放系数=-（1.53）/0.0142745=107。他的作用是将缩放后的变量进行平移，让所有的变量刚好处于0到255之间。还有一个clamp函数，这个函数的作用也是为了将变量规定在0到255之间，小于0的赋值为0大于255的赋值为255，和relu有异曲同工之妙。

量化：当上面的东西都准备好之后，我们将数据除以缩放系数加上zero_point后经过clamp函数，就得到量化后的值了[192,15,122,165,255,0,162,69,166]

反量化：将量化后的值减去zero_point乘上缩放比例，clamp函数就不用管了

总结：对比对称量化和非对称量化，对称量化：计算简单，但是精度较低；非对称量化：计算比较复杂，但是精度较高

3、量化后的计算

在计算层面上怎么体现呢，上面只是将浮点数变为了整数。

我们设原始的数据Xf和Wf，量化后的数据为Xq和Wq，根据我们上面的量化的方法，中间会有两个缩放系数Sx和Sw，那么我们的Xf*Wf就可以表示为：Xq*Sx@Wq*Sw，因为Xq*Sx是反量化，反量化后就相当于原数据。Wq*Sw同理，这样就相当于将浮点数运算变成了整数运算了。

按照这种思想，非对称量化的计算也很简单了，这里设zero_point为Zx和Zw。那么公式为：
XfWf=(Xq-Zx)*Sx@(Wq-Zw)*Sw，其实就是将反量化的公式当中原数据使用

三、如何对神经网络量化

对于神经网络，输入和参数都需要经过Normalization、激活函数，有些还有L1，L2正则化，数据范围都不大，而且数值影响会被平滑。

1、动态量化

在推理的时候的输入一般为FP32，我们将他量化为INT8，然后将权重也量化为INT8，那么推理的时候就是整数计算了，然后输出之前对数据和权重进行反量化，也就是FP32的形式输出。还有就是一般将训练好的模型权重量化为int8。

缺点：每一次推理每一层都要对输入统计量化参数，这样很耗时；每一层计算完后都转为FP32存入显存，占用显存带宽。

2、静态量化

为了解决上面动态量化的遗留问题，引入了静态量化。

1.将训练好的模型权重量化为int8，并保存量化参数(上面说到的zero_point和缩放因子)

2.校准：利用一些代表性的数据进行模型推理（无需标签），用这些数据在神经网络每一层产生的激活值估算出激活值的量化参数（ero_point和缩放因子）。这样就不用推理时每次根据实际激活值计算量化参数。

3.每一层对量化后的int8权重和int8激活值进行计算

4.在没一层输出时将结果反量化为FP32，或者直接传递INT8激活值+固定参数(减少显存占用)。同时根据校准产生的激活值量化参数，把激活值化为int8，把量化参数放入量化后的激活值中

5.将int8激活值和它的量化参数传入下一层

静态量化通过预校准固定参数，彻底解决了动态量化的实时计算瓶颈，是部署高吞吐量AI服务的首选方案。实际应用中需权衡校准数据成本和精度要求，结合硬件支持选择最优量化策略。

缺点：依赖校准数据质量（分布偏差会导致精度损失）

3、PyTorch代码示例

在PyTorch中已经有量化的API了，torch.ao.quantization类

1.动态量化示例

# PyTorch动态量化示例（权重INT8，激活动态量化）
model_int8 = torch.quantization.quantize_dynamic(model_fp32, {torch.nn.Linear},  # 仅量化指定层dtype=torch.qint8
)

2.静态量化示例：

import torch
from torch.quantization import QuantStub, DeQuantStub, prepare, convert# 定义模型（插入量化/反量化节点）
class QuantizedModel(torch.nn.Module):def __init__(self, model_fp32):super().__init__()self.quant = QuantStub()    # 输入量化self.model = model_fp32self.dequant = DeQuantStub() # 输出反量化def forward(self, x):x = self.quant(x)x = self.model(x)x = self.dequant(x)return x# 准备模型
model_fp32 = ...  # 原始模型
model_quant = QuantizedModel(model_fp32)
model_quant.qconfig = torch.quantization.get_default_qconfig('fbgemm')  # 后端配置# 校准阶段（用代表性数据）
model_prepared = torch.quantization.prepare(model_quant)
for data in calibration_data:model_prepared(data)  # 统计激活值分布
model_int8 = torch.quantization.convert(model_prepared)  # 转换为静态量化模型# 推理（全程INT8）
input_fp32 = torch.randn(1, 3, 224, 224)
output_fp32 = model_int8(input_fp32)  # 输出自动反量化

四、量化感知训练

量化感知训练（QAT）是一种在模型训练过程中模拟量化误差的方法，旨在让模型在低精度（如INT8）环境下保持高精度性能。其核心思想是通过前向传播模拟量化、反向传播保持高精度更新，使模型权重适应量化后的数值分布，从而减少最终量化部署时的精度损失。

1.加载FP32的模型参数和激活值：在前向传播时，向网络中插入模拟量化算子，将FP32权重和激活值“假装”量化为INT8（实际仍用FP32存储）。

2.量化噪声模拟：通过模拟INT8的舍入误差和截断效应，让模型在训练中学习抵抗量化带来的精度损失。

3.得到模型：训练完成后，直接导出真正的INT8量化模型（无需额外校准）。

QAT（量化感知训练）就是让模型提前适应“被压缩”的感觉，就像运动员在高原训练（模拟缺氧环境），比赛时到平原就能轻松发挥。

举个例子：就像在训练小狗握手，普通训练(对称量化): 让狗在宽敞的地方训练握手(高精度环境)，QAT训练：让狗在狭窄的空间里面训练，等它习惯了，将它放在阳台等角落里它也会握手。相当于预训练。

QAT = “先苦后甜”式训练，让模型在模拟的艰苦环境（低精度）中学习，最终在真实部署时既快又准！

4.代码示例：

import torch
import torch.quantization# 1. 定义模型（插入伪量化节点）
class QATModel(torch.nn.Module):def __init__(self):super().__init__()self.quant = torch.quantization.QuantStub()self.conv = torch.nn.Conv2d(3, 64, kernel_size=3)self.dequant = torch.quantization.DeQuantStub()def forward(self, x):x = self.quant(x)x = self.conv(x)x = self.dequant(x)return x# 2. 加载预训练模型（FP32）
model_fp32 = QATModel()
model_fp32.load_state_dict(torch.load('pretrained.pth'))# 3. 配置QAT参数
model_fp32.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')# 4. 准备QAT训练
model_qat = torch.quantization.prepare_qat(model_fp32)# 5. 正常训练（模拟量化）
optimizer = torch.optim.SGD(model_qat.parameters(), lr=0.001)
for epoch in range(10):for data, target in train_loader:optimizer.zero_grad()output = model_qat(data)loss = criterion(output, target)loss.backward()optimizer.step()# 6. 导出INT8模型
model_int8 = torch.quantization.convert(model_qat)
torch.save(model_int8.state_dict(), 'quantized_model.pth')

五、AWQ（激活感知权重量化）

AWQ是一种针对大型语言模型（LLMs）的训练后量化（PTQ）方法，专注于4位仅权重量化，旨在最小化推理成本的同时保持模型精度。与量化感知训练（QAT）方法不同，AWQ无需反向传播或重新训练，因此适用于大型模型的扩展。这种技术特别适合像边缘设备这样资源受限的硬件，通过有策略地保护对精度至关重要的权重来实现高效推理。

举个例子：就像图书管理，普通方法，比如上面讲到的对称量化，不管内容是否重要一股脑的全部挤在书架上。而AWQ，先检查那些是经常用到的书、重点的书，放在书架上，不重要的数据把它一股脑全丢角落里，既能节省空间，有保护了关键内容

AWQ好比一种压缩技术，像给模型减肥一样，只压缩不太重要的部分，重要的部分保存高精度，让大模型在手机平板上也能跑的很快、不卡顿。

那么什么是“经常用到的书”呢？在模型运行时，某些数字对结果的影响大就是常用的，AWQ会自动找到它们

压缩：就是将什么我们提到的：将浮点数FP32压缩成INT8，对于不重要的我们将它压缩成INT4.

代码示例：

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer# 1. 加载预训练模型
model_path = "meta-llama/Llama-2-7b"
quant_path = "llama-2-7b-awq-int4"# 2. 配置AWQ参数
quant_config = {"zero_point": True,    # 使用零点量化"q_group_size": 128,  # 分组量化大小"w_bit": 4,           # 权重量化为INT4"version": "GEMM"     # 使用矩阵乘优化
}# 3. 执行AWQ量化
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config=quant_config)# 4. 保存量化模型
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)# 5. 加载量化模型推理
model = AutoAWQForCausalLM.from_quantized(quant_path)
inputs = tokenizer("Hello, AWQ!", return_tensors="pt")
outputs = model.generate(**inputs)

一、为什么需要量化技术

1、数据规模

2、32位浮点数（FP32）

3、16位浮点数（FP16）

4、Bfloat16（BF16）

5.INT8（8位整数）和INT4（4位整数）

总结：

二、量化方法

1、对称量化：

2、非对称量化

3、量化后的计算

三、如何对神经网络量化

1、动态量化

2、静态量化

3、PyTorch代码示例

1.动态量化示例

2.静态量化示例：

四、量化感知训练

五、AWQ（激活感知权重量化）

相关文章：