当前位置：首页 > news >正文

协方差相关问题

news 来源：原创 2025/8/23 23:11:52

为什么无偏估计用 $(n - 1)$ 而不是 $n$ ，区别是什么？

在统计学中，无偏估计是指估计量的期望值等于总体参数的真实值。当我们用样本数据估计总体方差或协方差时，分母使用 $(n - 1)$ 而不是 $n$ 是为了确保估计是无偏的。

1. 总体方差与样本方差

总体方差 $\sigma^2$ 定义为：
$\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2$

其中 $n$ 是总体数据点数， $\mu$ 是总体均值。

样本方差的直观定义可能是：
$s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$

但这个估计是有偏的。为了得到无偏估计，我们使用：
$s_{n-1}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$

2. 为什么用 $(n - 1)$ 实现无偏估计？

直观解释

样本均值的"过拟合"： $\bar{x}$ 是从样本计算得到的，不是固定的总体均值 $\mu$ 。这使得样本数据点相对于 $\bar{x}$ 的偏差比相对于 $\mu$ 的偏差小。
自由度损失：计算 $\bar{x}$ 时已用掉一个自由度（因为 $\sum (x_i - \bar{x}) = 0$ ），所以剩余的独立信息只有 $(n - 1)$ 个自由度。

数学证明

关键证明是样本方差总和的期望值：
$E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = (n-1) \sigma^2$

若分母用 $n$ ：
$E[s_n^2] = E\left[ \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{n-1}{n} \sigma^2 < \sigma^2$
若分母用 $(n - 1)$ ：
$E[s_{n-1}^2] = E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2$

3. 用 $(n - 1)$ 和 $n$ 的区别

方面	分母用 $(n - 1)$	分母用 $n$
估计性质	无偏估计， $E[s_{n-1}^2] = \sigma^2$	有偏估计， $E[s_n^2] = \frac{n-1}{n} \sigma^2$
数值大小	结果稍大（因为分母更小）	结果稍小（因为分母更大）
适用场景	统计推断，估计总体参数	最大似然估计或描述样本特性
样本大小影响	小样本时差异明显，大样本时差异趋近于零	同左，但偏差始终存在

在小样本情况下，差异更显著（例如 $n = 5$ 时，有偏估计为 $\frac{4}{5}\sigma^2$ ）
在大样本情况下（如 $n = 1000$ ），差异很小，但理论上仍以 $(n - 1)$ 为标准

好的，我来更新第4部分的内容，用更详细的推导过程替代之前的版本。

4. 期望 $E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n-1)\sigma^2$ 的详细推导

假设条件

为了推导这个期望，我们需要明确以下假设：

$x_1, x_2, \ldots, x_n$ 是从均值为 $\mu$ 、方差为 $\sigma^2$ 的总体中抽取的**独立同分布（i.i.d.）**随机变量。
样本均值定义为： $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ 。

步骤 1：表达式变换

直接计算 $E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right]$ 较为复杂，因为 $\bar{x}$ 本身是随机变量。我们可以利用一个恒等式将表达式改写为更容易处理的形式。

考虑 $x_i - \bar{x}$ 的定义：
$x_i - \bar{x} = (x_i - \mu) - (\bar{x} - \mu)$

这里我们引入了总体均值 $\mu$ ，将偏差分解为两部分：样本值与总体均值的偏差 $(x_i - \mu)$ 和样本均值与总体均值的偏差 $(\bar{x} - \mu)$ 。

将这个表达式平方并求和：
$\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n \left[ (x_i - \mu) - (\bar{x} - \mu) \right]^2$

展开平方：
$(x_i - \bar{x})^2 = (x_i - \mu)^2 - 2 (x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2$

对所有 $i$ 求和：
$\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) + \sum_{i=1}^n (\bar{x} - \mu)^2$

简化最后一项，因为 $(\bar{x} - \mu)^2$ 不依赖于 $i$ ：
$\sum_{i=1}^n (\bar{x} - \mu)^2 = n (\bar{x} - \mu)^2$

接下来处理中间项 $\sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu)$ ：
$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$
所以：
$\bar{x} - \mu = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)$

代入：
$\sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \sum_{i=1}^n (x_i - \mu) \cdot \frac{1}{n} \sum_{j=1}^n (x_j - \mu)$

因为 $\sum_{j=1}^n (x_j - \mu)$ 不依赖于 $i$ ，可以提出：
$\sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) \cdot \sum_{j=1}^n (x_j - \mu) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i - \mu) \right]^2$

注意到：
$\sum_{i=1}^n (x_i - \mu) = n (\bar{x} - \mu)$

所以：
$\sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \left[ n (\bar{x} - \mu) \right]^2 = n (\bar{x} - \mu)^2$

将这些结果代回原式：
$\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 n (\bar{x} - \mu)^2 + n (\bar{x} - \mu)^2$
$\sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2$

我们得到了一个关键恒等式：
$\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2$

步骤 2：计算期望

现在，对这个表达式取期望：
$E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 \right]$

由于期望是线性的，可以分开计算：
$E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] - E\left[ n (\bar{x} - \mu)^2 \right]$

第一项： $E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right]$

因为 $x_i$ 是 i.i.d. 的，且 $E[(x_i - \mu)^2] = \text{Var}(x_i) = \sigma^2$ ：
$E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] = \sum_{i=1}^n E[(x_i - \mu)^2] = \sum_{i=1}^n \sigma^2 = n \sigma^2$

第二项： $E\left[ n (\bar{x} - \mu)^2 \right]$

首先计算 $\bar{x}$ 的方差：
$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$

由于 $x_i$ 是独立的：
$\text{Var}(\bar{x}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n x_i \right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n}$

因为 $E[\bar{x}] = \mu$ （样本均值无偏），所以：
$E[(\bar{x} - \mu)^2] = \text{Var}(\bar{x}) = \frac{\sigma^2}{n}$

因此：
$E\left[ n (\bar{x} - \mu)^2 \right] = n \cdot E[(\bar{x} - \mu)^2] = n \cdot \frac{\sigma^2}{n} = \sigma^2$

合并结果

$E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = n \sigma^2 - \sigma^2 = (n - 1) \sigma^2$

步骤 3：验证与意义

我们得到了：
$E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2$

这表明， $\sum_{i=1}^n (x_i - \bar{x})^2$ 的期望值是 $\sigma^2$ 。在统计学中，样本方差定义为：
$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$

其期望为：
$E[s^2] = \frac{1}{n-1} E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2$

这说明 $s^2$ 是总体方差 $\sigma^2$ 的无偏估计。

如果用 $n$ 作为分母：
$E\left[ \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n} \cdot (n-1) \sigma^2 = \frac{n-1}{n} \sigma^2 < \sigma^2$

这表明分母用 $n$ 会低估总体方差。

总结

通过将 $\sum_{i=1}^n (x_i - \bar{x})^2$ 展开为 $\sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2$ ，并分别计算两项的期望，我们推导出：
$E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2$

$\sum_{i=1}^n (x_i - \mu)^2$ 的期望是 $\sigma^2$ ，表示总体偏差。
$(\bar{x} - \mu)^2$ 的期望是 $\sigma^2$ ，反映样本均值的波动。
两者的差值 $\sigma^2$ 解释了为什么样本方差的分母用 $n - 1$ 是无偏的。

5. 数据中心化的原理

数据中心化是将每个数据点减去均值的过程：

数学表示

原始数据： $x_1, x_2, ..., x_n$
均值： $\mu = \frac{1}{n}\sum_{i=1}^n x_i$
中心化数据： $x'_i = x_i - \mu$

几何意义

将数据集平移，使中心点位于坐标原点
数据分布形状不变，仅位置发生移动
数据点之间的相对关系保持不变

优点

消除数据的整体偏移
提高数值计算的稳定性
加快模型收敛速度
使不同特征处于相似的尺度范围

示例

对于数据 [2, 4, 6, 8]：

均值 $\mu = 5$
中心化后：[-3, -1, 1, 3]

数据中心化是统计分析和机器学习中的重要预处理步骤，有助于我们关注数据的相对变化而非绝对位置。

为什么无偏估计用 ( n − 1 ) (n-1) (n−1) 而不是 n n n，区别是什么？