当前位置：首页 > news >正文

【自然语言处理与大模型】模型压缩技术之剪枝

news 来源：原创 2025/7/26 10:46:53

一、什么是模型剪枝？

模型剪枝（Model Pruning）是一种神经网络模型压缩技术，其核心思想是通过删除或稀疏化模型中冗余的部分（如不重要的参数或神经元连接），在尽量保持模型性能的前提下，减少模型的参数量和计算量，从而提高运行效率，降低存储和部署成本。

【注】为什么能剪？剪了难道就没影响吗？

模型中许多参数对最终的预测结果贡献较小或是没有显著作用。模型剪枝的核心原理在于识别并移除这些不太重要性的参数或结构，从而简化模型。即便对模型精度造成了影响，也可以对模型再进行微调来提升精度。

以深度神经网络为例，模型剪枝可以作用于以下部分：

模型剪枝的分类，也就是怎么去剪呢？可以分成两类：

结构化剪枝（Structured Pruning）：直接删除神经网络中的某些结构化部分（如神经元、卷积通道或层）。这种剪枝方式更适合硬件加速，因为剪枝后的模型仍然是稠密的，易于部署。
非结构化剪枝（Unstructured Pruning）：移除网络中单个、独立的权重（不考虑结构）。剪枝后的模型通常是稀疏的，需要特殊的稀疏矩阵存储和计算优化。

类型	优点	缺点
非结构化剪枝	剪枝算法简单，模型压缩比高	精度不可控，剪枝后权重矩阵稀疏，没有专用硬件难以实现压缩和加速的效果
结构化剪枝	大部分算法在 channel 或者 layer 上进行剪枝，保留原始卷积结构，不需要专用硬件来实现	剪枝算法相对复杂

因为目前非结构化剪枝的精度不可控，这在实际应用的时候是无法接受的。而结构化剪枝算法又太过复杂，所以剪枝目前用的比较少。大部分都是用量化和蒸馏来压缩模型。

对模型进行剪枝三种常见做法：

训练过参数化模型，得到最佳网络性能，以此为基础进行剪枝，通过剪枝算法后模型会变得稀疏，减少了模型的参数量和计算量，从而提高运行效率。但可能会导致模型精度下降，所以还需要再对剪枝后的模型进行微调，以此来恢复精度。

假设有一个全连接层网络，其参数矩阵为：

权重剪枝：如果我们设置剪枝阈值为 0.2，则移除绝对值小于 0.2 的权重，得到稀疏矩阵：

微调：对剪枝后的模型重新训练，以减少精度损失。

量化和剪枝的目的都是为了：减少模型大小、加快推理速度、降低内存占用和能耗。但它们实现这一目标的方式不同。

本文参考了剪枝经典论文：Learning both Weights and Connections for Efficient