当前位置：首页 > news >正文

机器学习 [白板推导]（三）[线性分类]

news 来源：原创 2025/8/13 23:34:39

4. 线性分类

4.1. 线性分类的典型模型

硬分类：输出结果只有0或1这种离散结果；
- 感知机
- 线性判别分析 Fisher
软分类：会输出0-1之间的值作为各个类别的概率；
- 概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是 $p(\vec{x},y)$
- 概率判别模型：逻辑回归，主要建模的是 $p(y|\vec{x})$

4.2. 感知机

4.2.1. 基本模型

模型：
$\begin{aligned} f(\hat{\vec{x}})=\text{sign}(\hat{\vec{x}}^TW),\\ \text{sign}(a)=\left\{\begin{matrix}1,&a>0\\0,&a=0\\-1,&a<0\end{matrix}.\right.\end{aligned}\tag{4.1}$

思想：错误驱动，先随机初始化一个 $W$ ，研究错误分类的样本来调整。
策略：使用错分类样本计算损失函数：
$\begin{aligned} \mathcal{L}(W)=\sum_{\hat{\vec{x}}_i\in D}-y_i\cdot \hat{\vec{x}}_i^TW\\ D=\{\hat{\vec{x}}_i\}_{f(\hat{\vec{x}}_i)\neq y_i}. \end{aligned}\tag{4.2}$

4.3. 线性判别分析 Fisher

4.3.1. 问题定义

对于一个二分类问题，将样本分为 $X_{c_1}=\left \{ \hat{\vec{x}}_i|y_i=+1 \right \}$ 和 $X_{c_2}=\left \{ \hat{\vec{x}}_i|y_i=-1 \right \}$ ，这两组的样本数分别为 $N_1$ 和 $N_2$ ， $N_1+N_2=N$ .
寻找一个投影超平面 $W$ ，使所有样本点在这个平面的投影可以做到类内间距小，类间间距大。

4.3.2. 过程推导

样本 $\hat{\vec{x}}_i$ 在超平面 $W$ 上的投影可以表示为 $z=\hat{\vec{x}}^T\cdot W$ ，则对其求均值和方差：
$\begin{aligned} \bar{z}&=\frac{1}{N}\sum_{i=1}^Nz_i=\frac{1}{N}\sum_{i=1}^N\hat{\vec{x}}_i^T\cdot W\\ S_z&=\frac{1}{N}\sum_{i=1}^N(z_i-\bar{z})^2=\frac{1}{N}\sum_{i=1}^N(\hat{\vec{x}}_i^T\cdot W-\bar{z})^2. \end{aligned}\tag{4.3}$

基于上式分别对两类样本计算均值 $\bar{z}_1$ 和 $\bar{z}_2$ ，以及方差 $S_{z_1}$ 和 $S_{z_2}$ . 为了尽可能类内间距小，类间间距大，将目标函数定义为
$\mathcal{J}(W)=\frac{(\bar{z}_1-\bar{z}_2)^2}{S_{z_1}+S_{z_2}},\tag{4.4}$

则模型转为优化问题：
$W=\argmax_W\mathcal{J}(W),\tag{4.5}$

对目标函数进行化简：
$\begin{aligned} (\bar{z}_1-\bar{z}_2)^2&=(\frac{1}{N_1}\sum_{i=1}^{N_1}\hat{\vec{x}}_i^T\cdot W-\frac{1}{N_2}\sum_{i=1}^{N_2}\hat{\vec{x}}_i^T\cdot W)^2\\ &=[(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW]^2\\ &=W^T(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW \end{aligned}\tag{4.6}$

$\begin{aligned}S_{z_1}&=\frac{1}{N_1}\sum_{i=1}^{N_1}(\hat{\vec{x}}_i^T\cdot W-\bar{z}_1)^2\\&=\frac{1}{N_1}\sum_{i=1}^{N_1}W^T(\vec{x}_i-\bar{\vec{x}}_{C_1})(\vec{x}_i-\bar{\vec{x}}_{C_1})^TW\\ & =W^T\left [\frac{1}{N_1}\sum_{i=1}^{N_1}(\vec{x}_i-\bar{\vec{x}}_{C_1})(\vec{x}_i-\bar{\vec{x}}_{C_1})^T \right ]W\\ &=W^TS_{C_1}W,\end{aligned}\tag{4.7}$

同理可得 $S_{z_2}=W^TS_{C_2}W$ . 所以目标函数化为
$\begin{aligned} \mathcal{J}(W)&=\frac{(\bar{z}_1-\bar{z}_2)^2}{S_{z_1}+S_{z_2}}\\&=\frac{W^T(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW}{W^T(S_{C_1}+S_{C_2})W} \end{aligned}\tag{4.8}$

再定义总类内方差 $S_w$ 和总类间方差 $S_b$ ：
$\begin{aligned} S_w&=S_{C_1}+S_{C_2}\\ S_b&=(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^T \end{aligned}\tag{4.9}$

因此目标函数被表示为：
$\mathcal{J}(W)=\frac{W^TS_bW}{W^TS_wW},\tag{4.10}$

对目标函数求导得：
$\begin{aligned}\frac{\partial \mathcal{J}(W)}{\partial W}&=2S_bW(W^TS_wW)^{-1}+\\&W^TS_bW\cdot(-1)\cdot (W^TS_wW)^{-2}\cdot2S_wW,\end{aligned}\tag{4.11}$

令其为0可得
$\begin{aligned}W&=\frac{W^TS_wW}{W^TS_bW}S_w^{-1}S_bW\\&=\frac{W^TS_wW}{W^TS_bW}S_w^{-1}(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW\\&=\frac{W^TS_wW\cdot (\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW}{W^TS_bW}S_w^{-1}(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2}) ,\end{aligned}\tag{4.12}$

因为 $W$ 是一个单位向量，所以我们只关心其方向而不关心其长度，所以最终得到：
$\begin{aligned}W\propto S_w^{-1}(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2}). \end{aligned}\tag{4.13}$

4.4. 逻辑回归

4.4.1. 基本思想

在线性回归中引入非线性激活函数，使其可以将回归结果映射为概率值，作为类别的概率。因此将这个模型看做一个条件概率分布的建模，输入 $\hat{\vec{x}}$ ，通过建模 $p(y|\hat{\vec{x}})$ ，输出 $y$ 的离散取值；

4.4.2. Sigmoid 激活函数

基本公式：
$\sigma (z)=\frac{1}{1+e^{-z}}\tag{4.14}$

特殊取值：

$z\rightarrow -\infty$ 时， $\lim \sigma (z)=0$ ；
$z = 0$ 时， $\sigma(z)=\frac{1}{2}$ ；
$z\rightarrow \infty$ 时， $\lim \sigma (z)=1$ .

函数图像：
在这里插入图片描述

4.4.3. 模型推导

根据条件概率建模的思想：
$\begin{aligned} p_1&=p(y=1|\hat{\vec{x}})=\sigma(\hat{\vec{x}}^TW)= \frac{1}{1+e^{-\hat{\vec{x}}^TW}}\\ p_0&=p(y=0|\hat{\vec{x}})=1-\sigma(\hat{\vec{x}}^TW)= \frac{e^{-\hat{\vec{x}}^TW}}{1+e^{-\hat{\vec{x}}^TW}}, \end{aligned}\tag{4.15}$

因此将整个模型写作
$p(y|x)=p_1^y\cdot p_0^{1-y},\tag{4.16}$

当 $y = 0$ 时， $p=p_0$ ，当 $y = 1$ 时， $p=p_1$ .

用极大似然估计法求解模型：
$\begin{aligned} \hat{W}&=\argmax_W\log p(Y|X)\\ &=\argmax_W\sum_{i=1}^N\left [ y_i\cdot \log\sigma(\hat{\vec{x}}^TW)+(1-y_i)\cdot \log(1-\sigma(\hat{\vec{x}}^TW)) \right ], \end{aligned}\tag{4.17}$

对其求梯度得
$\begin{aligned} \bigtriangledown \text{grad}_W &=\sum_{i=1}^N \left [y_i\cdot (1-\sigma(\hat{\vec{x}}^TW))\cdot\hat{\vec{x}} - (1-y_i)\cdot \sigma(\hat{\vec{x}}^TW)\cdot\hat{\vec{x}} \right ]\\ &=\sum_{i=1}^N \left [y_i-\sigma(\hat{\vec{x}}^TW) \right ]\cdot\hat{\vec{x}}, \end{aligned}\tag{4.18}$

即可对模型进行迭代更新。

4.5. 高斯判别分析

4.5.1. 概率判别式模型与概率生成式模型的区别

概率判别式模型主要计算条件概率密度 $p(y|\vec{x})$ ，取令该概率最大的 $y$ 为分类结果；
概率生成式模型并不需要计算具体的 $p(y|\vec{x})$ 值，而是直接思考 $p(y=1|\vec{x})$ 和 $p(y=0|\vec{x})$ 的结果谁更大，根据贝叶斯公式 $p(y|\vec{x}) = \frac{p(\vec{x}|y)\cdot p(y)}{p(\vec{x})}$ ，将目标函数变为：
$\begin{aligned} \hat{y}&=\argmax_y p(y|\vec{x})\\&=\argmax_y p(\vec{x}|y)\cdot p(y), \end{aligned}\tag{4.19}$

其中若 $p(y=1)=\phi$ ，则 $p(y=0)=1-\phi$ ，可以将 $p (y)$ 合并为 $p(y)=\phi ^y\cdot (1-\phi)^{1-y}$ .

4.5.2. 高斯概率假设

在高斯判别模型中，假设条件分布是遵从高斯概率分布的，即：
$\begin{aligned} \vec{x}|y&=0\sim N(\mu_1, \Sigma)\\ \vec{x}|y&=1\sim N(\mu_2, \Sigma), \end{aligned}\tag{4.20}$

使用对数似然求解目标函数，可得
$\begin{aligned} \mathcal{L}(\theta)&=\log\prod_{i=1}^N p(\vec{x}_i,y_i)\\ &=\sum _{i=1}^N\left [\log p(\vec{x}_i|y_i)+\log p(y_i) \right ] \\ &=\sum _{i=1}^N\left \{ y_i\cdot \left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right )-\frac{p}{2}\log2\pi--\frac{1}{2}\log|\Sigma| \right ]+\right.\\ &\left (1-y_i \right )\cdot \left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_2 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_2 \right )-\frac{p}{2}\log2\pi--\frac{1}{2}\log|\Sigma| \right ] +\\&\left.y_i \cdot\log\phi + (1-y_i)\cdot\log(1-\phi)\right \} . \end{aligned}\tag{4.21}$

4.5.3. 求解模型

首先求解参数 $\phi$ ，对目标函数求偏导：
$\begin{aligned} \frac{\partial L(\theta)}{\partial \phi}=\sum_{i=1}^N\left (\frac{y_i}{\phi}-\frac{1-y_i}{1-\phi} \right ) , \end{aligned}\tag{4.22}$

令其为0，求得
$\hat{\phi}=\frac{1}{N}\sum_{i=1}^{N}y_i,\tag{4.23}$

也就是样本中各个标签出现的频率即为最优概率值。

再求解参数 $\vec{\mu}_1$ ，由于其他和 $\vec{\mu}_1$ 无关的部分求偏导后都得0，所以从目标函数中单独取出和相关的部分，即
$\begin{aligned} \hat{\vec{\mu}}_1&=\argmax_{\vec{\mu}_1}\sum_{i=1}^Ny_i\cdot \left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right ) \right ]\\ &=\argmax_{\vec{\mu}_1}\sum_{\vec{x_i}\in C_1}\left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right ) \right ], \end{aligned}\tag{4.22}$

其中 $C_1=\left \{ \vec{x}_i\right \}_{y_i=1}$ ，因此求解方法等同于高维高斯分布的极大似然估计（见另一篇笔记机器学习[白板推导]（一）第2.2.2.节），结果为
$\begin{aligned} \hat{\vec{\mu}}_1&=\frac{\sum_{i=1}^Ny_i\cdot \vec{x}_i}{N_1}=\frac{\sum_{\vec{x}_i\in C_1}\vec{x}_i}{N_1}\\ \hat{\vec{\mu}}_2&=\frac{\sum_{i=1}^N\left (1-y_i \right )\cdot \vec{x}_i}{N_2}=\frac{\sum_{\vec{x}_i\in C_2}\vec{x}_i}{N_2}, \end{aligned}\tag{4.23}$

最后求 $\Sigma$ ，同样取出目标函数中和其相关的部分，得：
$\begin{aligned} \hat{\Sigma}=&\argmax_{\Sigma}\sum_{\vec{x}_i\in C_1}\left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right ) \right ]\\ &+\sum_{\vec{x}_i\in C_2}\left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_2 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_2 \right ) \right ] - \frac{N}{2}\log |\Sigma| , \end{aligned}\tag{4.24}$

对其求偏导得
$\begin{aligned} \frac{d\mathcal{L}(\theta)}{d\Sigma} &=-\frac{N}{2}\Sigma ^{-1}+\frac{1}{2}\sum_{\vec{x}_i\in C_1}\Sigma^{-1}(\vec{x}_i-\vec{\mu}_1)(\vec{x}_i-\vec{\mu}_1)^T\Sigma^{-1}\\ &+\frac{1}{2}\sum_{\vec{x}_i\in C_2}\Sigma^{-1}(\vec{x}_i-\vec{\mu}_2)(\vec{x}_i-\vec{\mu}_2)^T\Sigma^{-1} , \end{aligned}\tag{4.25}$

令其为0得
$\begin{aligned} \hat{\Sigma} &=\frac{1}{N}\left [\sum_{\vec{x}_i\in C_1}(\vec{x}_i-\vec{\mu}_1)(\vec{x}_i-\vec{\mu}_1)^T+\sum_{\vec{x}_i\in C_2}(\vec{x}_i-\vec{\mu}_2)(\vec{x}_i-\vec{\mu}_2)^T \right ]\\ &=\frac{N_1\cdot S_1+N_2\cdot S_2}{N} , \end{aligned}\tag{4.26}$

其中 $S_1$ 和 $S_2$ 分别为两个类内样本方差。

4.6. 朴素贝叶斯（Naive Bayes Classifier）

4.6.1. 基本思想

所有朴素贝叶斯家族的算法都是基于朴素贝叶斯假设，又叫条件随机场假设，即假设各个特征之间相互独立。朴素贝叶斯模型是最简单的概率图模型，模型方法和高斯判别分析较为接近，这里不做重复。