当前位置：首页 > news >正文

从统计学视角看机器学习的训练与推理

news 来源：原创 2025/9/8 8:12:56

从统计学视角看机器学习的训练与推理

引言：统计学与机器学习的奇妙缘分
训练与推理：你得先学会“看数据”再“用数据”
最大似然估计（MLE）：从直觉到数学证明
- 3.1 伯努利分布的MLE
- 3.2 单变量高斯分布的MLE
- 3.3 多元高斯与线性回归中的MLE
经验风险最小（ERM）：MLE的自然推广
其他估计方法：矩估计、在线递归估计与指数加权移动平均
总结与展望

引言：统计学与机器学习的奇妙缘分

当我们谈论机器学习时，其实是在说如何“训练”一个模型，让它能够从数据中“推理”出规律。统计学作为这一过程的数学基石，提供了严格的理论支持。从古老的贝叶斯推理到现代的频数推理，每种方法都有其独特的数学证明和直观解释。本文就将带你走进这些理论的世界，让你在大白话的解释中，感受到数学公式背后的美妙逻辑！

训练与推理：你得先学会“看数据”再“用数据”

在机器学习中，我们通常把整个过程分为两个阶段：训练和推理。训练阶段，我们使用大量数据来“教会”模型识别数据的内在规律；而在推理阶段，模型利用学到的知识对新数据进行预测。两者的区别在于：

训练（Training）： 模型根据已知数据调整自身参数，就像你学习数学时不断做题、修正错误。这个过程本质上就是参数估计和优化问题。
推理（Inference）： 模型用训练中学到的参数去处理未知数据，给出预测结果，就像考试时你凭借平时的训练作答。

在统计学里，我们往往用概率分布来刻画数据，通过最大似然估计、贝叶斯方法等工具，实现训练与推理的数学转化。

最大似然估计（MLE）：从直觉到数学证明

最大似然估计是统计学中最核心的参数估计方法之一，它的思想其实很直白——选择使得观测数据出现概率最大的参数值。下面，我们通过几个经典例子来详细说明这一过程。

伯努利分布的MLE

假设你在做一个抛硬币实验，每次实验的结果只有“正面”（1）和“反面”（0）。用$ \theta $表示出现正面的概率，那么一组独立实验的似然函数为：

$L(\theta)=\prod_{i=1}^{n} \theta^{x_i}(1-\theta)^{1-x_i}$

为了方便求导，我们取对数，得到对数似然函数：

$\ell(\theta)=\sum_{i=1}^{n} \Bigl[x_i\log\theta+(1-x_i)\log(1-\theta)\Bigr]$

接下来，对 $\theta$ 求导并令导数为零，我们可以得到：

$\frac{d\ell(\theta)}{d\theta}=\frac{\sum_{i=1}^{n}x_i}{\theta}-\frac{n-\sum_{i=1}^{n}x_i}{1-\theta}=0$

解得：

$\theta=\frac{1}{n}\sum_{i=1}^{n}x_i$

这告诉我们，最佳的参数 $\theta$ 就是正面出现的频率。简单明了，对吧？

单变量高斯分布的MLE

对于连续变量，最常用的分布之一就是高斯分布。设数据服从单变量高斯分布：

$p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr)$

对于独立数据集，似然函数为：

$L(\mu,\sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x_i-\mu)^2}{2\sigma^2}\Bigr)$

取对数后得到：

$\ell(\mu,\sigma^2)=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2$

分别对 $\mu$ 和 $\sigma^2$ 求导并令导数为零，我们能推导出：

$\mu=\frac{1}{n}\sum_{i=1}^{n}x_i$

$\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$

这两个公式直观地告诉我们，数据的均值和方差正是高斯分布参数的最佳估计。

多元高斯与线性回归中的MLE

当数据是多维的，我们用多元高斯分布来描述数据。设 $\mathbf{x}\in \mathbb{R}^d$ ，其概率密度函数为：

$p(\mathbf{x}|\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\Bigl(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\Bigr)$

同样地，对数似然函数为：

$\ell(\boldsymbol{\mu},\Sigma)=-\frac{n}{2}\log((2\pi)^d|\Sigma|)-\frac{1}{2}\sum_{i=1}^{n}(\mathbf{x}_i-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_i-\boldsymbol{\mu})$

通过对 $\boldsymbol{\mu}$ 和 $\Sigma$ 求导，可以得到最优估计公式。特别地，在线性回归中，我们假定目标变量 $y$ 与输入特征 $\mathbf{x}$ 之间满足：

$y=\mathbf{x}^T\boldsymbol{\beta}+\epsilon,\quad \epsilon\sim N(0,\sigma^2)$

在这种假设下，最大似然估计的求解过程等价于最小二乘法，最佳参数为：

$\hat{\boldsymbol{\beta}}=(X^TX)^{-1}X^Ty$

同时，噪声方差的估计为：

$\hat{\sigma}^2=\frac{1}{n}\|y-X\hat{\boldsymbol{\beta}}\|^2$

这些推导不仅告诉我们如何从数据中“学习”参数，更为后续更复杂的模型训练提供了理论基础。

经验风险最小（ERM）：MLE的自然推广

最大似然估计是一种非常特殊的经验风险最小（ERM）方法。当我们在训练一个模型时，目标是最小化经验风险，即：

$\hat{\theta}=\arg\min_{\theta}\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i;\theta))$

这里， $L$ 是损失函数，而 $f(x_i;\theta)$ 是模型预测值。如果我们选择 $L$ 为负对数似然，那么ERM就完全等价于MLE。这说明，经验风险最小化不仅适用于概率模型，也适用于更广泛的模型训练问题，是MLE思想的自然推广。

其他估计方法：矩估计、在线递归估计与指数加权移动平均

除了MLE之外，统计学中还有许多其他参数估计方法。下面我们用大白话和公式来解释几种常见的方法：

矩估计法（Method of Moments, MOM）

矩估计法的基本思想是：用样本矩来估计分布的理论矩。例如，对于单变量高斯分布，我们有：

$\mu=E[x]\approx \frac{1}{n}\sum_{i=1}^{n}x_i$

$\sigma^2=E[(x-\mu)^2]\approx \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2$

对于均匀分布 $U (a, b)$ ，已知其理论均值和方差分别为：

$\mu=\frac{a+b}{2},\quad \sigma^2=\frac{(b-a)^2}{12}$

利用样本均值和样本方差，我们可以反推出分布的参数。这种方法简单直观，适用于很多分布的参数估计。

在线递归估计与高斯分布均值的递归MLE

在实际应用中，数据往往是不断到来的，我们希望能够实时更新模型参数。在线递归估计便是一种非常实用的方法。例如，对高斯分布均值的递归估计公式为：

$\hat{\mu}_t=\hat{\mu}_{t-1}+\alpha(x_t-\hat{\mu}_{t-1})$

其中， $\alpha$ 是一个学习率参数，控制新数据对估计值的影响。这其实和我们日常生活中的“不断修正预期”很像：每次遇到新情况，我们就会略微调整之前的看法。

指数加权移动平均（Exponential Weighted Moving Average, EWMA）

当我们希望对时间序列数据进行平滑处理时，指数加权移动平均是一个好方法。其公式为：

$S_t=\lambda x_t+(1-\lambda)S_{t-1}$

其中， $\lambda$ 为平滑系数（通常在 $0$ 到 $1$ 之间）， $S_t$ 为当前的平滑值。简单来说，每个时刻的估计值不仅考虑当前数据 $x_t$ ，还会参考之前的状态 $S_{t-1}$ ，使得整体估计更平滑、鲁棒性更高。

总结与展望

通过上面的讨论，我们可以看到，统计学不仅为机器学习中的训练和推理提供了理论基础，更在参数估计上展现出极大的魅力。无论是最大似然估计的严谨证明，还是经验风险最小化的广义框架，都为我们理解机器学习模型的本质提供了强有力的支持。同时，矩估计、在线递归估计和指数加权移动平均等方法，也展示了数据流时代实时更新模型参数的可能性。