当前位置：首页 > news >正文

机器学习的数学基础(三)——概率与信息论

news 来源：原创 2025/9/17 18:42:52

1. 随机变量
2. 概率分布
- 2.1 离散型变量和概率质量函数
- 2.2 连续型变量和概率密度函数
3. 边缘概率
4. 条件概率
5. 条件概率的链式法则
6. 独立性和条件独立性
7. 期望、方差和协方差
- 7.1 期望
- 7.2 方差
- 7.3 协方差
8. 常用概率分布
- 8.1 均匀分布 $U (a, b)$
- 8.2 Bernoulli分布
- 8.3 Multinoulli分布
- 8.4 高斯分布(正态分布) $N(x;\mu,\sigma^2)$
- 8.5 多维正态分布
- 8.6 指数分布
- 8.7 Laplace分布
- 8.8 Dirac分布
- 8.9 经验分布
9. 贝叶斯规则
10. 部分信息论
- 10.1 自信息和香农熵
- 10.2 KL散度和交叉墒
参考

1. 随机变量

随机变量是可以随机地取不同值的变量。一个随机变量只是对可能的状态的描述，它必须伴随一个概率分布来指定每个状态的可能性。
随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态(这些状态不一定非要是整数，它们可能只是一些被命名的状态而没有数值)。连续随机变量伴随着实数值。

2. 概率分布

概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。

2.1 离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数来描述，用大写字母 $\mathrm{P}$ 来表示。概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。 $\mathrm{x}=x$ 的概率用 $\mathrm{P}(x)$ 来表示。概率为1表示 $\mathrm{x}=x$ 是确定，概率为0表示 $\mathrm{x}=x$ 是不可能发生的。用如下符号表示随机变量服从何种分布：
$\mathrm{x}\sim \mathrm{P}(\mathrm{x}).$
概率质量函数可以同时作用于多个随机变量，这种多个变量的概率分布称为联合概率分布， $\mathrm{P}(\mathrm{x}=x,\mathrm{y}=y)$ 表示 $\mathrm{x}=x$ 和 $\mathrm{y}=y$ 同时发生的概率，可以简写为 $\mathrm{P}(x,y)$ 。
如果一个函数 $\mathrm{P}$ 是随机变量 $\mathrm{x}$ 的概率质量函数，必须满足如下几个条件：
1. $\mathrm{P}$ 的定义域必须是 $\mathrm{x}$ 所有可能状态的集合。
2. $\forall x\in \mathrm{x}, 0\le \mathrm{P}(x)\le 1$ 。
3. $\displaystyle\sum_{x\in \mathrm{x}}\mathrm{P}(x)=1$ 。

2.2 连续型变量和概率密度函数

但研究的对象是连续型随机变量时，用概率密度函数来描述它的概率分布。如果一个函数 $\mathrm{p}$ 是概率密度函数，必须满足下面几个条件：
1. $\mathrm{p}$ 的定义域必须是 $\mathrm{x}$ 所有可能状态的集合。
2. $\forall x\in \mathrm{x}, \mathrm{p}(x)\ge0$ 。
3. $\displaystyle\int \mathrm{p}(x)dx=1$ 。
概率密度函数 $\mathrm{p}(x)$ 并没有直接对特定状态给出概率，可以对概率密度函数求积分来获得点集的真实概率质量。在单随机变量的例子中， $x$ 落在区间 $[a, b]$ 的概率是 $\displaystyle\int_a^b \mathrm{p}(x)dx$ 。

3. 边缘概率

在已知一组变量的联合概率分布时，要求出其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。
对于离散型随机变量，假设有离散型随机变量 $\mathrm{x}$ 和 $\mathrm{y}$ ，已知 $\mathrm{P}(x,y)$ ，可以通过求和法则来计算 $\mathrm{P}(x)$ ：
$\forall x\in \mathrm{x}, \mathrm{P}(\mathrm{x}=x)=\sum_{y}\mathrm{P}(\mathrm{x}=x, \mathrm{y}=y).$
对于连续型随机变量，需要用积分代替求和：
$\mathrm{p}(x)=\int \mathrm{p}(x, y)dy.$

4. 条件概率

在很多情况下，我们更关心的是某个事件在给定其他事件发生时出现的概率，这种概率称为条件概率，将给定 $\mathrm{x}=x$ ， $\mathrm{y}=y$ 发生的条件概率记作 $\mathrm{P}(\mathrm{y}=y|\mathrm{x}=x)$ 。这个条件概率可以通过如下的公式计算：
$\mathrm{P}(\mathrm{y}=y| \mathrm{x}=x)=\frac{\mathrm{P}(\mathrm{x}=x, \mathrm{y}=y)}{\mathrm{P}(\mathrm{x}=x)}.$
条件概率只在 $\mathrm{P}(\mathrm{x}=x)\gt0$ 时有定义。

5. 条件概率的链式法则

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
$\mathrm{P}(\mathrm{x}^{(1)}, \cdots, \mathrm{x}^{(n)})=P(\mathrm{x}^{(1)})\prod_{i=2}^n \mathrm{P}(\mathrm{x}^{(i)}|\mathrm{x}^{(1)}, \cdots, \mathrm{x}^{(i-1)}).$
这个规则称为概率的链式法则，它可以直接从条件概率的定义中得到。
比如：
$\begin{aligned}\mathrm{P}(\mathrm{a}, \mathrm{b}, \mathrm{c})&=\mathrm{P}(\mathrm{a}|\mathrm{b}, \mathrm{c})\mathrm{P}(\mathrm{b}, \mathrm{c})\\&=\mathrm{P}(\mathrm{a}|\mathrm{b}, \mathrm{c})\mathrm{P}(\mathrm{b}|\mathrm{c})\mathrm{P}(\mathrm{c}). \end{aligned}$

6. 独立性和条件独立性

两个随机变量 $\mathrm{x}$ 和 $\mathrm{y}$ ，如果它们的概率分布可以表示为两个因子的乘积形式，并且一个因子只包含 $\mathrm{x}$ ，另一个因子只包含 $\mathrm{y}$ ，则称这两个随机变量是相互独立的：
$\forall x\in \mathrm{x}, y\in \mathrm{y}, \mathrm{p}(\mathrm{x}=x, \mathrm{y}=y)=\mathrm{p}(\mathrm{x}=x)\mathrm{p}(\mathrm{y}=y).$
如果关于 $\mathrm{x}$ 和 $\mathrm{y}$ 的条件概率分布对于 $\mathrm{z}$ 的每一个值都可以写成乘积的形式，那么这两个随机变量 $\mathrm{x}$ 和 $\mathrm{y}$ 在给定随机变量 $\mathrm{z}$ 时是条件独立的：
$\forall x\in \mathrm{x}, y\in \mathrm{y}, z\in \mathrm{z}, \mathrm{p}(\mathrm{x}=x, \mathrm{y}=y| \mathrm{z}=z)=\mathrm{p}(\mathrm{x}=x|\mathrm{z}=z)\mathrm{p}(\mathrm{y}=y|\mathrm{z}=z).$
$\mathrm{x}\perp \mathrm{y}$ 表示 $\mathrm{x}$ 和 $\mathrm{y}$ 相互独立， $\mathrm{x}\perp \mathrm{y}|\mathrm{z}$ 表示 $\mathrm{x}$ 和 $\mathrm{y}$ 在给定 $\mathrm{z}$ 时条件独立。

7. 期望、方差和协方差

7.1 期望

函数 $f (x)$ 关于某分布 $\mathrm{P}(\mathrm{x})$ 的期望或者期望值是指当 $x$ 由 $\mathrm{P}$ 产生， $f$ 作用于 $x$ 时， $f (x)$ 的平均值。对于离散型随机变量，期望可以通过求和得到：
$E_{x\sim \mathrm{P}}[f(x)]=\sum_{x}\mathrm{P}(x)f(x).$
对于连续型随机变量，期望可以通过积分得到：
$E_{x\sim \mathrm{p}}[f(x)]=\int \mathrm{p}(x)f(x)dx.$
期望是线性的： $E_{\mathrm{x}}[\alpha f(x)+\beta g(x)]=\alpha E_{\mathrm{x}}[f(x)]+\beta E_{\mathrm{x}}[g(x)].$

7.2 方差

方差衡量的是对 $x$ 依据它的概率分布进行采样时，随机变量 $\mathrm{x}$ 的函数值会呈现多大的差异：
$\begin{aligned}Var(f(x))&=E[(f(x)-E[f(x)])^2]\\ &=E[f^2(x)]-2E[f(x)E[f(x)]]+E[E^2[f(x)]]\\ &=E[f^2(x)]-2E^2[f(x)]+E^2[f(x)]\\ &=E[f^2(x)]-E^2[f(x)]\end{aligned}$
当方差很小时， $f (x)$ 的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差。

7.3 协方差

协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：
$\begin{aligned}Cov(f(x), g(y))&=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]\\ &=E[f(x)g(y)-E[f(x)]g(y)-E[g(y)]f(x)+E[f(x)]E[g(y)]]\\ &=E[f(x)g(y)]-2E[f(x)]E[g(y)]+E[f(x)]E[g(y)]\\ &=E[f(x)g(y)]-E[f(x)]E[g(y)]\end{aligned}$
协方差的绝对值如果很大，则意味着变量值变化很大，并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值；如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值。
协方差和相关性是有联系的，如果两个变量相互独立，那么它们的协方差为零；如果两个变量的协方差不为零，那么它们一定是相关的。
如果两个变量的协方差为零，它们之间一定没有线性关系。
随机向量 $x\in \mathbb{R}^n$ 的协方差矩阵是一个 $n\times n$ 的矩阵，并且满足 $Cov(x)_{i, j}=Cov(x_i, x_j)$ ，该矩阵的对角元是方差： $Cov(x_i, x_i)=Var(x_i)$ 。

8. 常用概率分布

8.1 均匀分布 $U (a, b)$

实数区间上的均匀分布 $U (a, b)$ ，其中 $a$ 和 $b$ 是区间的端点且满足 $b\gt a$ ，均匀分布的概率密度函数为：
$\begin{aligned}u(x;a, b)=\left\{\begin{aligned}0\quad, &x\notin [a, b]\\ \frac{1}{b-a},&x\in [a, b].\end{aligned}\right.\end{aligned}$
期望：
$\begin{aligned}E(x)&=\int_a^b \frac{x}{b-a}dx =\left.\frac{x^2}{2(b-a)}\right|_a^b=\frac{b^2-a^2}{2(b-a)}=\frac{a+b}{2}.\end{aligned}$
方差：
$\begin{aligned}Var(x)&=E(x^2)-E^2(x)\\ &=\int_a^b \frac{x^2}{b-a}dx-\frac{(a+b)^2}{4}\\ &=\left. \frac{x^3}{3(b-a)}\right|_a^b-\frac{(a+b)^2}{4}\\ &=\frac{b^3-a^3}{3(b-a)}-\frac{(a+b)^2}{4}\\ &=\frac{b^2+ab+a^2}{3}-\frac{a^2+2ab+b^2}{4}\\ &=\frac{4b^2+4ab+4a^2-3a^2-6ab-3b^2}{12}\\ &=\frac{a^2-2ab+b^2}{12}=\frac{(a-b)^2}{12}\end{aligned}$

8.2 Bernoulli分布

Bernoulli分布是单个二值随机变量的分布，它由单个参数 $\psi\in[0,1]$ 控制， $\psi$ 给出了随机变量等于1的概率，它的概率质量函数为：
$\begin{aligned}\mathrm{P(x}=x)=\psi^x(1-\psi)^{1-x}=\left\{\begin{aligned}1-\psi,&x=0\\ \psi\quad,&x=1.\end{aligned}\right.\end{aligned}$
期望：
$E(\mathrm{x})=0\times(1-\psi)+1\times \psi=\psi.$
方差：
$Var(x)=E(x^2)-E^2(x)=\psi-\psi^2=\psi(1-\psi).$

8.3 Multinoulli分布

Multinoulli分布是指在具有 $k$ 个不同状态的单个离散型随机变量上的分布，其中 $k$ 是一个有限值。Multinoulli分布由向量 $p\in[0, 1]^{k-1}$ 参数化，其中每一个分量 $p_i$ 表示第 $i$ 个状态的概率，最后第 $k$ 个状态的概率可以通过 $\displaystyle1-\sum_{i=1}^kp_i$ 给出，其中 $\displaystyle\sum_{i=1}^kp_i\le1$ 。
Multinoulli分布经常用来表示对象分类的分布，因此通常不需要计算该分布的期望和方差。

8.4 高斯分布(正态分布) $N(x;\mu,\sigma^2)$

高斯分布的概率密度函数为：
$N(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right).$
高斯分布的概率密度函数如下图所示。高斯分布由两个参数控制， $\mu\in \mathbb{R}$ 和 $\sigma\in(0, \infty)$ ，概率密度函数的峰值在 $x=\mu$ 处取到。
另一种更高效的参数化分布的方式是使用 $\beta\in(0, \infty)$ 来控制分布的精度：
$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{\beta}{2}(x-\mu)^2\right)$
在这里插入图片描述
期望：
$\begin{aligned}E(x)&=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)xdx\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{y^2}{2}\right)(\mu+\sigma y)\sigma dy(换元y=\frac{x-\mu}{\sigma})\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)(\mu+\sigma y)dy\\ &=\sigma\int_{-\infty}^{\infty}y\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)dy+\mu\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)dy\end{aligned}$
其中 $\displaystyle\int_{-\infty}^{\infty}y\sqrt{\frac{1}{2\pi}}exp(-\frac{y^2}{2})dy$ 是奇函数在对称区间上的积分，结果为0， $\displaystyle\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp(-\frac{y^2}{2})dy$ 是标准正态分布 $N (x; 0, 1)$ 的总概率，结果为1。因此期望 $E(x)=\sigma\times0+\mu\times1=\mu.$
方差：
$\begin{aligned}Var(x)&=E[(x-E(x))^2]\\ &=E[(x-\mu)^2]\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)(x-\mu)^2dx\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)\sigma^2y^2dy(换元y=\frac{x-\mu}{\sigma})\\ &=\sigma^2\sqrt{\frac{1}{2\pi}}\int_{-\infty}^{\infty}y^2exp\left(-\frac{y^2}{2}\right)dy.\\ 令I&=\int_{-\infty}^{\infty}y^2exp\left(-\frac{y^2}{2}\right)dy\\ I^2&=(\int_{-\infty}^{\infty}y^2exp\left(-\frac{y^2}{2}\right)dy)^2\\ &=\int_{-\infty}^{\infty}y_1^2exp\left(-\frac{y_1^2}{2}\right)dy_1\int_{-\infty}^{\infty}y_2^2exp\left(-\frac{y_2^2}{2}\right)dy_2\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}y_1^2y_2^2exp\left(-\frac{y_1^2+y_2^2}{2}\right)dy_1dy_2\\ &=\int_0^{2\pi}\int_0^{\infty} r^4cos^2(\theta)sin^2(\theta)exp\left(-\frac{r^2}{2}\right)rdrd\theta(换元y_1=rcos(\theta),y_2=rsin(\theta))\\ &=\int_0^{2\pi}\int_0^{-\infty}-cos^2(\theta)sin^2(\theta)4x^2exp(x)dxd\theta(换元x=-\frac{r^2}{2})\\ &=\int_0^{2\pi}cos^2(\theta)sin^2(\theta) d\theta\int_{-\infty}^04x^2exp(x)dx\\ &=\int_0^{2\pi} sin^2(\theta)-sin^4(\theta)d\theta(点火公式)\times\left. 4(x^2-2x+2)e^x\right|_{-\infty}^0\\ &=4\times(\frac{1}{2}\times\frac{\pi}{2}-\frac{3}{4}\times\frac{1}{2}\times \frac{\pi}{2})\times8\\ &=2\pi.\\ Var(x)&=\sigma^2\sqrt{\frac{1}{2\pi}}I=\sigma^2\sqrt{\frac{1}{2\pi}}\sqrt{2\pi}=\sigma^2. \end{aligned}$
采用正态分布在很多应用中都是一个明智的选择：
1. 我们想要建模的很多分布的真实情况是很接近正态分布的。中心极限定理说明了很多独立随机变量的和近似服从正态分布。
2. 在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。因此正态分布是对模型加入的先验知识量最少的分布。

8.5 多维正态分布

正态分布可以推广到 $\mathbb{R}^n$ 空间，这种情况下称为多维正态分布，它的参数是一个正定对称矩阵 $\Sigma$ ：
$N(x;\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^n|\Sigma|}}exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right).$
其中参数 $\mu$ 是向量，表示分布的均值， $\Sigma$ 是分布的协方差矩阵。
一个高效化的参数化分布的方式：
$N(x;\mu, \beta^{-1})=\sqrt{\frac{|\beta|}{(2\pi)^n}}exp\left(-\frac{1}{2}(x-\mu)^T\beta(x-\mu)\right).$

8.6 指数分布

指数分布：
$\mathrm{p}(x;\lambda)=\lambda I(x\ge0)exp(-\lambda x).$
其中 $I(x\ge0)$ 是指示函数，当 $x\lt0$ 时，值为0，否则为1。

8.7 Laplace分布

Laplace分布：
$Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp(-\frac{|x-\mu|}{\gamma}).$

8.8 Dirac分布

Dirac分布：
$\mathrm{p}(x)=\delta(x-\mu).$
Dirac分布在除了 $x=\mu$ 以外的所有点的值为0，但是积分为1。

8.9 经验分布

经验分布：
$\mathrm{\hat{p}}(x)=\frac{1}{m}\sum_{i=1}^m\delta(x-x^{(i)}).$
经验分布将概率密度 $\frac{1}{m}$ 赋给 $m$ 个点 $x^{(1)}$ ， $\cdots$ ， $x^{(m)}$ 中的每一个，这些点是给定的数据集或者采样的集合。只有在定义连续型随机变量的经验分布时， $\delta(x)$ 是必要的；对于离散型随机变量，经验分布可以被定义为一个Multinoulli分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率。

9. 贝叶斯规则

$\mathrm{P(xy)}=\mathrm{P(x|y)P(y)}=\mathrm{P(y|x)P(x)}$
贝叶斯公式：
$\mathrm{P(x|y)}=\frac{\mathrm{P(y|x)P(x)}}{\mathrm{P(y)}}$
此外 $\mathrm{P(y)}$ 通常使用 $\displaystyle\mathrm{P(y)}=\sum_{x}\mathrm{P(y|}x)\mathrm{P(}x)$ 来计算。

10. 部分信息论

10.1 自信息和香农熵

信息论的基本想法是一个不太可能的事情居然发生了，要比一个非常可能的事件发生，能提供更多的信息。我们想要通过这种基本想法来量化信息，特别是：
1. 非常可能发生的事件信息量要比较少，并且极端情况下，确保能够发生的事件应该没有信息量。
2. 较不可能发生的事件具有更高的信息量。
3. 独立事件应具有增量的信息。例如，投掷的硬币两次正面向上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。
为了满足上述三个性质，定义一个事件 $\mathrm{x}=x$ 的自信息为 $I(x)=-\log\mathrm{P(}x)$ ，其中 $\log$ 表示自然对数。自信息的单位是奈特，1奈特是以 $\displaystyle\frac{1}{e}$ 的概率观测到一个事件时获得的信息量。
当 $\mathrm{x}$ 是连续的，我们使用类似的关于信息的定义，但是有些来源于离散形式的性质就丢失了。例如，一个具有单位密度的事件信息量仍然为零，但是不能保证它一定发生。
自信息只处理单个的输出。可以用香农熵来对整个概率分布中的不确定性总量进行量化：
$H(\mathrm{x})=E_{\mathrm{x\sim P}}[I(x)]=-E_{\mathrm{x\sim P}}[\log \mathrm{P}(x)].$
也记作 $H(\mathrm{P})$ 。一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布 $\mathrm{P}$ 生成的符号进行编码所需的比特数在平均意义上的下界( $\log是以2为底时，单位为比特$ )。那些接近确定性的分布具有较低的墒；那些接近均匀分布的概率分布具有较高的墒。当 $\mathrm{x}$ 是连续的，香农熵称为微分墒。
计算Bernoulli分布的香农熵：
$\begin{aligned}H(\mathrm{P})&=-E[\log \mathrm{P}(x)]\\ &=-E[log(\psi^x(1-\psi)^{1-x})]\\ &=-E[x\log\psi+(1-x)\log(1-\psi)]\\ &=-E(x)\log\psi-(1-E(x))\log(1-\psi)\\ &=-\psi\log\psi-(1-\psi)\log(1-\psi)\end{aligned}.$
下图中水平轴是 $x$ ，表示二值随机变量等于1的概率，当 $x$ 接近0时，分布几乎是确定的，因为随机变量总等于0；当 $x$ 接近1时，分布也几乎是确定的，因为随机变量总等于1；当 $x = 0.5$ 时，熵是最大的，因为分布在两个结果上是均匀的。
在这里插入图片描述

10.2 KL散度和交叉墒

如果对于同一个随机变量 $\mathrm{x}$ 有两个单独的概率分布 $\mathrm{P(x)}$ 和 $\mathrm{Q(x)}$ ，可以使用KL散度来衡量两个分布的差异：
$D_{KL}(\mathrm{P||Q})=E_{\mathrm{x\sim P}}[\log \frac{\mathrm{P(}x)}{\mathrm{Q(}x)}]=E_{\mathrm{x\sim P}}[\log \mathrm{P(}x)-\log \mathrm{Q(}x)].$
在离散型变量的情况下，KL散度衡量的是，当我们使用一种被设计成能够使得概率分布 $\mathrm{Q}$ 产生的消息的长度最小的编码，发送包含由概率分布 $\mathrm{P}$ 产生的符号的信息时，所需要的额外信息量。
性质：
1. 非负性。
2. KL散度等于0，当且仅当 $\mathrm{P}$ 和 $\mathrm{Q}$ 在离散型变量的情况下是相同的分布，或在连续型变量的情况下是“几乎处处”相同的。
3. 不对称性： $D_{KL}(\mathrm{P||Q})\ne D_{KL}(\mathrm{Q||P})$ 。
一个和KL散度密切联系的量是交叉熵：
$H(\mathrm{P, Q})=H(\mathrm{P})+D_{KL}(\mathrm{P||Q})=-E_{\mathrm{x\sim P}}[\log \mathrm{Q(}x)].$
针对 $\mathrm{Q}$ 最小化交叉熵等于最小化KL散度。
当计算时，遇到 $0\log0$ 处理为 $\lim\limits_{x\rightarrow 0}x\log x=0$ 。

参考

[美]伊恩·古德费洛（lan Goodfellow）[加]约书亚·本吉奥（Yoshua Bengio）[加]亚伦·库维尔（Aaron Courville）深度学习（中文翻译版）

机器学习的数学基础(三)——概率与信息论

目录 1. 随机变量2. 概率分布2.1 离散型变量和概率质量函数2.2 连续型变量和概率密度函数 3. 边缘概率4. 条件概率5. 条件概率的链式法则6. 独立性和条件独立性7. 期望、方差和协方差7.1 期望7.2 方差7.3 协方差 8. 常用概率分布8.1 均匀分布 U ( a , b ) U(a, b) U(a,b)8.2 Be…...

编程日记 2025/9/17 18:42:52

使用Docker Desktop部署GitLab

1. 环境准备确保Windows 10/11系统支持虚拟化技术（需在BIOS中开启Intel VT-x/AMD-V）内存建议≥8GB，存储空间≥100GB 2. 安装Docker Desktop 访问Docker官网下载安装包安装时勾选"Use WSL 2 instead of Hyper-V"（推荐…...

编程日记 2025/9/18 16:47:20

推理模型时代：大语言模型如何从对话走向深度思考？

一、对话模型和推理模型的区别概述对话模型是专门用于问答交互的语言模型，符合人类的聊天方式，返回的内容可能仅仅只是一个简短的答案，一般模型名称后面会带有「chat」字样。推理模型是比较新的产物，没有明确的定义，一般是指输出过程中带有<think>和</think&…...

编程日记 2025/9/18 16:46:54

GESP2024年3月认证C++七级( 第三部分编程题（1）交流问题）

参考程序： #include <iostream> #include <vector> #include <unordered_map> using namespace std;// 深度优先搜索，给每个节点染色，交替染色以模拟两校同学的划分 void dfs(vector<vector<int>>& graph…...

编程日记 2025/9/18 16:45:02

DeepSeek：AI商业化的新引擎与未来蓝图

摘要在人工智能迅猛发展的浪潮中，DeepSeek以其卓越的技术实力和高超的商业化能力崭露头角。作为一款现象级AI产品，它不仅在算法性能上位居行业前列，还通过灵活的定制解决方案渗透到金融、医疗、零售等多个领域。DeepSeek以创新的商业模式和场…...

编程日记 2025/9/18 16:47:20

2025年度福建省职业院校技能大赛中职组“网络建设与运维”赛项规程模块三

模块三：服务搭建与运维任务描述： 随着信息技术的快速发展，集团计划把部分业务由原有的 X86 服务器上迁移到ARM 架构服务器上，同时根据目前的部分业务需求进行了部分调整和优化。一、X86 架构计算机操作系统安装与管理 1&…...

编程日记 2025/9/18 16:47:48

Python----数据结构（队列，顺序队列，链式队列，双端队列）

一、队列 1.1、概念队列(Queue)：也是一种基本的数据结构，在队列中的插入和删除都遵循先进先出（First in First out，FIFO）的原则。元素可以在任何时刻从队尾插入，但是只有在队列最前面的元素才能被取出或…...

编程日记 2025/9/14 11:19:34

【自学笔记】Spring Boot框架技术基础知识点总览-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 Spring Boot框架技术基础知识点总览一、Spring Boot简介1.1 什么是Spring Boot？1.2 Spring Boot的主要特性二、Spring Boot快速入门2.1 搭建Spring Boo…...

编程日记 2025/9/14 21:09:49

神经网络剪枝技术的重大突破：sGLP-IB与sTLP-IB

神经网络剪枝技术的重大突破：sGLP-IB与sTLP-IB 在人工智能飞速发展的今天，深度学习技术已经成为推动计算机视觉、自然语言处理等领域的核心力量。然而，随着模型规模的不断膨胀，如何在有限的计算资源和存储条件下高效部署这些复杂的神经网络模型，成为了研究者们亟待解决的…...

编程日记 2025/9/15 3:40:19

Django-Vue 学习-VUE

主组件中有多个Vue组件是指在Vue.js框架中，主组件是一个父组件，它包含了多个子组件（Vue组件）。这种组件嵌套的方式可以用于构建复杂的前端应用程序，通过拆分功能和视图，使代码更加模块化、可复用和易于维…...

编程日记 2025/9/15 3:40:17

【Gin】2：快速上手Gin框架（模版、cookie、session）

本文目录一、模版渲染二、自定义模版函数三、cookie四、Session五、cookie、session区别六、会话攻击一、模版渲染在 Gin 框架中，模板主要用于动态生成 HTML 页面，结合 Go 语言的模板引擎功能，实现数据与视图的分离。模板渲染是一种动态…...

编程日记 2025/9/15 3:40:15

Linux修改主机名称

hostnamectl set-hostname 主机名称 exit 退出登录重新进入即可...

编程日记 2025/9/15 3:40:13

亲测Windows部署Ollama+WebUI可视化

一. Ollama下载登录Ollama官网(Ollama)点击Download进行下载如果下载很慢可用以下地址下载： https://github.com/ollama/ollama/releases/download/v0.5.7/OllamaSetup.exe 在DeepSeek官网上，你可以直接点击【model】到达这个界面之后，…...

编程日记 2025/9/15 3:40:11

Java四大框架深度剖析：MyBatis、Spring、SpringMVC与SpringBoot

目录前言： 一、MyBatis框架 1. 概述 2. 核心特性 3. 应用场景 4. 示例代码二、Spring框架 1. 概述 2. 核心模块 3. 应用场景 4. 示例代码三、SpringMVC框架 1. 概述 2. 核心特性 3. 应用场景 4. 示例代码四、SpringBoot框架 1. 概述 2. 核心…...

编程日记 2025/9/15 1:57:23

ubuntu部署小笔记-采坑

ubuntu部署小笔记搭建前端控制端后端前端nginx反向代理使用ubuntu部署nextjs项目问题一如何访问端口号配置后台运行该进程pm2 问题二包体过大生产环境下所需文件问题三部署在vercel时出现的问题需要魔法访问后端api时，必须使用https协议电脑端访问正常&#xf…...

编程日记 2025/9/16 5:10:25

23. AI-大语言模型-DeepSeek简介

文章目录前言一、DeepSeek是什么1. 简介2. 产品版本1. 类型2. 版本3. 参数规模与模型能力 3. 特征4. 三种访问方式1. 网页端和APP2. DeepSeek API 二、DeepSeek可以做什么1. 应用场景2. 文本生成1. 文本创作2. 摘要与改写3. 结构化生成 3. 自然语言理解与分析1. 语义分析2. 文…...

编程日记 2025/9/15 3:40:05

基于SpringBoot的智慧家政服务平台系统设计与实现的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…...

编程日记 2025/9/16 4:56:40

Java NIO与传统IO性能对比分析

Java NIO与传统IO性能对比分析在Java中，I/O（输入输出）操作是开发中最常见的任务之一。传统的I/O方式基于阻塞模型，而Java NIO（New I/O）引入了非阻塞和基于通道（Channel）和缓冲区&a…...

编程日记 2025/9/15 3:40:01

基于YOLO11深度学习的果园苹果检测与计数系统设计与实现【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…...

编程日记 2025/9/15 3:39:59

基于SpringBoot畅购行汽车购票系统

作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌ 主要内容：🌟Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能…...

编程日记 2025/9/15 3:39:57

基于 Spring Boot + 微信小程序的短文写作竞赛管理系统设计与实现（源码+文档）

大家好，今天要和大家聊的是一款基于 Spring Boot 微信小程序的“短文写作竞赛管理系统”的设计与实现。项目源码以及部署相关事宜请联系我，文末附上联系方式。项目简介基于 Spring Boot 微信小程序的“短文写作竞赛管理系统”设计与实现的主要使用…...

编程日记 2025/9/15 3:39:55

pytest运行用例的常见方式及参数

标题pytest运行用例方式及参数用例结构目录 “”" 在最外层目录下执行所有的用例参数说明： -s:显示用例的打印信息 -v:显示用例执行的详细信息 –alluredir:指定allure报告的路径 –clean-alluredir:清除allure报告的路径 -n:指定并发的进程数 -x:出现一条用…...

编程日记 2025/9/15 3:39:53

Miniconda + VSCode 的Python环境搭建

目录： 安装 VScode 安装 miniconda 在VScode 使用conda虚拟环境运行Python程序 1.安装 vscode 编辑器官网链接：Visual Studio Code - Code Editing. Redefined 下载得到：，双击安装。安装成功…...

编程日记 2025/9/15 3:39:51

图解MySQL【日志】——Redo Log

Redo Log（重做日志） 为什么需要 Redo Log？ 1. 崩溃恢复数据库崩溃时，系统通过 Redo Log 来恢复尚未写入磁盘的数据。Redo Log 记录了所有已提交事务的操作，系统在重启后会重做这些操作，以保证数据不会丢…...

编程日记 2025/9/14 16:17:42

Trae AI驱动开发实战：30分钟从0到1实现Django REST天气服务

目录一、Trae 安装 1、Trae 介绍 2、Trae 安装二、项目构建 1、项目背景与技术选型 2、开发环境准备三、需求分析 1、功能模块设计 2、数据库设计四、功能实现 1、用户系统开发 2、天气服务实现 3、测试用例编写五、Trae 体验总结随着人工智能技术的迅猛发…...

编程日记 2025/9/14 9:56:37

【Linux网络编程】IP协议格式，解包步骤

目录解析步骤 1.版本字段（大小：4比特位） 2.首部长度（大小：4比特位）（单位：4字节） 🍜细节解释： 3.服务类型（大小：8比特…...

编程日记 2025/9/15 3:39:46

中诺CHINO-E G076大容量录音电话产品使用注意事项

•本机需插上随机配置的电源适配器才能正常工作，切勿插入其它的适配器，以免损坏话机； •当本机出现异常时，请按“Δ/上查”键3秒，屏幕弹出确定恢复，按“设置”键恢复出厂设置； 注：…...

编程日记 2025/9/15 5:53:26

2025最新智能优化算法：改进型雪雁算法（Improved Snow Geese Algorithm, ISGA）求解23个经典函数测试集，MATLAB

一、改进型雪雁算法雪雁算法（Snow Geese Algorithm，SGA）是2024年提出的一种新型元启发式算法，其灵感来源于雪雁的迁徙行为，特别是它们在迁徙过程中形成的独特“人字形”和“直线”飞行模式。该算法通过模拟雪雁的飞行…...

编程日记 2025/9/15 3:39:45

✨ 索引有哪些缺点以及具体有哪些索引类型

索引的定义与原理索引是数据库中用于提高数据检索效率的数据结构。它就像是书籍的目录，通过目录可以快速定位到所需内容的页码，而在数据库中，索引可以帮助数据库系统快速找到符合查询条件的数据行，而不必对整个表进行扫描。其…...

编程日记 2025/9/15 3:39:43

Promptic：Python 中的 LLM 应用开发利器

Promptic 是一个基于 Python 的轻量级库，旨在简化与大型语言模型（LLMs）的交互。它通过提供简洁的装饰器 API 和强大的功能，帮助开发者高效地构建 LLM 应用程序。Promptic 的设计理念是提供 90% 的 LLM 应用开发所需功能，同时保持代码的简洁和易用性。 1. Promptic 的核心…...

编程日记 2025/9/15 3:39:41

本地部署DeepSeek R1大模型

一、安装软件 1.1 安装Ollama 你可以访问Ollama的官方网站https://ollama.com/download，选择适合你操作系统的安装包进行下载。老周这里是Mac系统，所以选择下载macOS系统。 1.2 安装cherry studio 前往官网https://cherry-ai.com/download下载对应操…...

编程日记 2025/9/14 8:10:35

搅局外卖，京东连出三张牌

明牌暗牌，都不如民牌。作者|古廿编辑|杨舟 “京东来整顿外卖了”，这一网络热梗正在成为外界对京东近期一系列动作的高度概括。 0佣金、五险一金、品质外卖，京东连出三张牌打破外卖市场的旧秩序。此前这三项分别对应着长期被社会所诟病的…...

编程日记 2025/9/15 3:39:38

【ELK】【Elasticsearch】数据查询方式

1. 简单查询（URI Search） 通过 URL 参数直接进行查询，适合简单的搜索场景。示例： bash 复制 GET /index_name/_search?qfield_name:search_value 说明： index_name：索引名称。 field_name&#xf…...

编程日记 2025/9/15 3:39:36

基于 JavaWeb 的 Spring Boot 网上商城系统设计和实现(源码+文档+部署讲解）

技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论…...

编程日记 2025/9/15 3:39:34

C++17中的std::scoped_lock：简化多锁管理的利器

文章目录 1. 为什么需要std::scoped_lock1.1 死锁问题1.2 异常安全性1.3 锁的管理复杂性 2. std::scoped_lock的使用方法2.1 基本语法2.2 支持多种互斥锁类型2.3 自动处理异常 3. std::scoped_lock的优势3.1 避免死锁3.2 简化代码3.3 提供异常安全保证 4. 实际应用场景4.1 数据…...

编程日记 2025/9/15 3:39:32

Linux内核实时机制7 - 实时改造机理 - 软中断优化下

Linux内核实时机制7 - 实时改造机理 - 软中断优化下 https://blog.csdn.net/u010971180/article/details/145722641以下分别以Linux4.19、Linux5.4、Linux5.10、Linux5.15 展开分析，深入社区实时改造机理的软中断优化过程。https://blog.csdn.net/weixin_41028621/article/det…...

编程日记 2025/9/15 3:39:30

计算机网络：应用层 —— 文件传送协议 FTP

文章目录 FTP 是什么？FTP 的应用FTP 的基本工作原理主动模式被动模式总结 FTP 是什么？ 将某台计算机中的文件通过网络传送到可能相很远的另一台计算机中，是一项基本的网络应用，即文件传送。文件传送协议FTP（File T…...

编程日记 2025/9/15 5:53:24

[笔记.AI]如何判断模型是否通过剪枝、量化、蒸馏生成？

以下摘自与DeepSeek-R1在线联网版的对话一、基础判断维度技术类型核心特征验证方法剪枝模型参数减少、结构稀疏化1. 检查模型参数量是否显著小于同类标准模型1 2. 分析权重矩阵稀疏性（如非零参数占比<30%）4量化权重/激活值精度降低、推理速度提升1…...

编程日记 2025/9/14 18:45:41

python: SQLAlchemy (ORM) Simple example using mysql in Ubuntu 24.04

mysql sql script: create table School 表 (SchoolId char(5) NOT NULL comment主鍵primary key，學校編號,SchoolName nvarchar(500) NOT NULL DEFAULT comment 學校名稱,SchoolTelNo varchar(8) NULL DEFAULT comment電話號碼,PRIMARY KEY (SchoolId) #主…...

编程日记 2025/9/15 2:39:48

【前端】【nuxt】nuxt优势（MVP开发)，转换SSR与SPA模式

Nuxt.js 核心优势自动化路由系统无需手动配置路由：在 pages/ 目录下创建 .vue 文件即可自动生成路由，支持动态路由（如 pages/user/[id].vue → /user/:id）。嵌套路由：通过 parent.vue parent/child.vue 目录结构自动…...

编程日记 2025/9/15 2:39:47

洛谷B3619(B3620)

B3619 10 进制转 x 进制 - 洛谷 B3620 x 进制转 10 进制 - 洛谷代码区： #include<algorithm> #include<iostream> #include<vector> using namespace std;int main(){int n,x;cin >> n >> x;vector<char> arry;while(n){if(…...

编程日记 2025/9/15 2:39:45

基于springboot+vue的酒店管理系统的设计与实现

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：…...

编程日记 2025/9/15 2:39:43

android调用ffmpeg解析rtsp协议的视频流

文章目录一、背景二、解析rtsp数据1、C层功能代码2、jni层的定义3、app层的调用三、源码下载一、背景本demo主要介绍android调用ffmpeg中的接口解析rtsp协议的视频流（不解析音频），得到yuv数据，把yuv转bitmap在android设备上显…...

编程日记 2025/9/15 2:39:42

cursor使用记录

一、如何查看自己登录的是哪个账号操作路径：Cursor -- 首选项 -- Cursor Setting （有快捷键） 二、状态修改为竖排（默认是横排） 默认如图展示，想要像vscode、idea等等在左侧竖着展示操作路径&#xff1…...

编程日记 2025/9/15 2:39:40

Java 使用websocket

添加依赖  <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId> </dependency>添加配置类 Configuration public class WebSocketConfig {B…...

编程日记 2025/9/15 2:39:38

蓝桥杯 Java B 组之背包问题、最长递增子序列（LIS）

Day 4：背包问题、最长递增子序列（LIS） 📖 一、动态规划（Dynamic Programming）简介动态规划是一种通过将复杂问题分解成更小的子问题来解决问题的算法设计思想。它主要用于解决具有最优子结构和重叠子问题…...

编程日记 2025/9/15 2:39:36

在PyTorch中使用插值法来优化卷积神经网络（CNN）所需硬件资源

插值法其实就是在已知数据点之间估计未知点的值。通过已知的离散数据点，构造一个连续的曲线函数，预测数据点之间的空缺值是什么并且自动填补上去。适用场景：在卷积神经网络（CNN）中的应用场景中，经常遇到计算资源有限，比如显存不够或者处理速度慢，需要用插值来降低计…...

编程日记 2025/9/15 0:33:16

seacmsv9 SQL注入漏洞（报错注入）

一、海洋CMS简介海洋cms是为解决站长核心需求而设计的视频内容管理系统，一套程序自适应电脑、手机、平板、APP多个终端入口，无任何加密代码、安全有保障，是您最佳的建站工具。——来自seacms官网（简而言之就是专门搭建看片网站的…...

编程日记 2025/9/17 22:57:17

Java 中的内存泄漏问题及解决方案

在 Java 中，内存泄漏（Memory Leak）是指在程序运行过程中，某些对象已经不再使用，但由于引用仍然存在，这些对象无法被垃圾回收器回收，从而导致内存无法释放，最终可能导致系统性能下降甚…...

编程日记 2025/9/15 2:39:30

解决 ERROR: Failed building wheel for vllm Failed to build vllm

1. 完整报错 copying build\lib\vllm\model_executor\layers\fused_moe\configs\E256,N128,device_nameNVIDIA_H100_80GB_HBM3,dtypefp8_w8a8,block_shape[128,128].json -> build\bdist.win-amd64\wheel.\vllm\model_executor\layers\fused_moe\configs error: could not …...

编程日记 2025/9/14 3:35:56

目录