当前位置：首页 > news >正文

LLM - 大模型 ScallingLaws 的 C=6ND 公式推导教程(1)

news 来源：原创 2025/8/5 15:01:17

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/145185794

Scaling Laws

Scaling Laws (缩放法则) 是大模型领域中，用于描述模型性能(Loss) 与模型规模N、数据量D、计算资源C 之间关系的经验规律，揭示在大模型中，随着模型参数数量、数据集大小和计算资源的增加，模型性能的变化模式，指导更高效地分配资源，优化模型训练过程，实现更好的性能。这些规律不仅有助于预测不同规模模型的表现，还能为模型设计和训练提供理论依据，是推动大模型发展和应用的重要理论基础。

Paper: Scaling Laws for Neural Language Models
其他参考：计算大语言模型(多模态) 的参数量

系列文章：

大模型 ScallingLaws 的 C=6ND 公式推导
大模型 ScallingLaws 的 CLM 和 MLM 中不同系数
大模型 ScallingLaws 的迁移学习与混合训练

对于 Decoder-Only 模型，计算量 $C$ (Flops)、模型参数量 N，数据大小 $D$ (Tokens)，三者近似满足 $\approx 6ND$ 。

1. 模型参数量 (`N`)

假设 Decoder 堆叠层数是 $l$ ，Attention 隐藏层维度是 $d$ ，FeedForward 维度是 $4 d$ ，其中，忽略 Embedding、Norm 和 Bias。

Transformer 的每 1 层包括 Self-Attention 和 MLP 等 2 个部分：

Self-Attention 的参数量，包括 $W_{Q},W_{K},W_{V},W_{O}$ 等 4个部分，维度均是 $\mathbb{R}^{d \times d}$ ，整体参数量是 $4d^2$ (暂时忽略 MQA)
MLP 的参数量，只包括 $W_{up},W_{down}$ ，维度均是 $\mathbb{R}^{d \times 4d}$ ，整体参数量 $2*4*d^{2}=8d^{2}$ ，(暂时忽略 $W_{gate}$ )
全部层数 $l$ 参数量，即 $12ld^{2}$

2. 模型计算量 (`C`)

模型的前向推理的计算量:

计算量的单位是 FLOPs (Floating Point Operations)，对于矩阵 $\in \mathbb{R}^{m \times n},B \in \mathbb{R}^{n \times p}$ ， $A B$ 相乘的计算量为 $2 mn p$ ，计算每个元素 $c_{i,j}$ 包括 1 次加法 1 次乘法，即每个点积运算都有 $n$ 次乘法和 $n - 1$ 次加法，即 $\times mnp$ 。

模型的反向推理的计算量是前向推理的 2 倍，即:

前向只需要结果往后传递，反向除了需要梯度往前传递，还需要计算当前参数 $W$ 的梯度，更新当前的参数 $W$ ，因此计算量是 2 倍。

Decoder 的输入是 $\in \mathbb{R}^{b \times s \times d}$ ，其中 $b$ 是 batch size， $s$ 是序列长度， $d$ 是模型维度。

其中 Self-Attention 的计算量：

输入层计算： $Q=XW_{Q},K=XW_{K},V=XW_{V}$ ，即 $\times b \times (2 \times s \times d \times d) = 6bsd^{2}$
Attention 计算 Score： $A=QK^{\top}$ ，使用 bmm (批次矩阵乘法)，batch size 不变，计算过程是 $\times \mathbb{R}^{s \times d} \times \mathbb{R}^{d \times s} = b \times \mathbb{R}^{s \times s}$ ，计算量即 $\times (2 \times s \times d \times s) = 2bs^{2}d$
Score 与 V 计算： $X^{'}=AV$ ，计算过程是 $\times \mathbb{R}^{s \times s} \times \mathbb{R}^{s \times d} = b \times \mathbb{R}^{s \times d}$ ，计算量即 $\times (2 \times s \times s \times d)=2bs^{2}d$
输出层计算： $X^{'}W_{O}$ ，计算过程是 $\times \mathbb{R}^{s \times d} \times \mathbb{R}^{d \times d} = b \times \mathbb{R}^{s \times d}$ ，计算量即 $\times (2 \times s \times d \times d)=2bsd^{2}$
合计： $C_{Attention}=8bsd^{2}+4bs^{2}d=bsd(8d+4s)$

其中 MLP 的计算量，升维和降维的计算量相同：

升维 $XW_{up}$ ，计算过程是 $\times \mathbb{R}^{s \times d} \times \mathbb{R}^{d \times 4d} = b \times \mathbb{R}^{s \times 4d}$ ，计算量 $\times (2 \times s \times d \times 4d)=8bsd^{2}$
同理，降维也是一样。
合计： $C_{MLP}=16bsd^{2}$

则每层的计算量：

$C_{Layer}=C_{Attenion}+C_{MLP}=24bsd^{2}+4bs^{2}d=bsd(24d+4s) \\ C_{forward}=lbsd(24d+4s)$

反向传播是正向传播的 2 倍，合计是 3 倍，即：

$\times C_{forward} = 72lbsd^{2} + 12lbs^{2}d = 12lbsd(6d + s)$

1.3 合计

模型参数量是 $N=12ld^{2}$ ，计算量是 $C = l b s d (72 d + 12 s)$ ，假设 $\ll 6d$ ，那么：

$12ld^{2} \times bs \times (6+\frac{s}{d}) = 6 \times bs \times 12ld^{2} \times (1+\frac{s}{6d}) = 6 \times bs \times N$

那么每个 Token 的计算量，即除以 $b s$ ，整体计算量再乘以全部数据集(Token) $D$ ，即：

$\times N \times D$

参考：

知乎 - 为什么反向计算是前向耗时的两倍？
GitHub - backprop_FLOPs.py
知乎 - 腾讯算出 MoE 模型的 Scaling Law
知乎 - 解析大模型中的 Scaling Law

1. 模型参数量 (N)

2. 模型计算量 (C)

1.3 合计

相关文章：

1. 模型参数量 (`N`)

2. 模型计算量 (`C`)