当前位置：首页 > news >正文

吴恩达机器学习笔记复盘（八）多元线性回归的梯度下降

news 来源：原创 2025/8/9 11:47:51

简介

梯度下降是多元线性回归的主流优化方法，具有普适性和可扩展性，而标准方程法适用于特定场景。实际应用中需结合特征工程和参数调优提升模型性能。本篇不复盘参数调优。

1.多元线性回归模型

多元线性回归模型假设因变量 $y$ 与多个自变量 $x_1, x_2, \cdots, x_n$ 之间存在线性关系，其数学表达式为： $y = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b$ 其中 $w_1, w_2, \cdots, w_n$ 是特征权重， $b$ 是偏置项。为了方便表示，我们可以使用向量形式：

$\mathbf{W} = \begin{bmatrix} w_1 \\ w_2 \\ \vdots \\ w_n \end{bmatrix}, \quad \mathbf{X} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}$

则模型可以写成：

$y = \mathbf{W}^T\mathbf{X} + b$

2. 代价函数

为了衡量模型预测值与真实值之间的差异，我们通常使用均方误差（Mean Squared Error, MSE）作为代价函数： $J(\mathbf{W}, b) = \frac{1}{2m} \sum_{i=1}^{m} (y^{(i)} - \hat{y}^{(i)})^2$

其中 $m$ 是样本数量， $y^{(i)}$ 是第 $i$ 个样本的真实值， $\hat{y}^{(i)}$ 是第 $i$ 个样本的预测值，即：

$\hat{y}^{(i)} = \mathbf{W}^T\mathbf{X}^{(i)} + b$

3. 梯度下降更新规则

梯度下降的核心思想是沿着代价函数的负梯度方向更新参数，以逐步减小代价函数的值。具体来说，我们需要计算代价函数 $J(\mathbf{W}, b)$ 关于参数 $\mathbf{W}$ 和 $b$ 的偏导数，然后根据偏导数更新参数。

3.1 计算偏导数

关于 $w_j$ 的偏导数：

$\frac{\partial J(\mathbf{W}, b)}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)}) x_j^{(i)}$

其中 $x_j^{(i)}$ 是第 $i$ 个样本的第 $j$ 个特征值。

关于 $b$ 的偏导数：

$\frac{\partial J(\mathbf{W}, b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})$

3.2 更新参数

在每次迭代中，我们使用以下更新规则来更新参数 $\mathbf{W}$ 和 $b$ ：

- 更新 $w_j$ ：

$w_j := w_j - \alpha \frac{\partial J(\mathbf{W}, b)}{\partial w_j}$

- 更新 $b$：

$b := b - \alpha \frac{\partial J(\mathbf{W}, b)}{\partial b}$

其中 $\alpha$ 是学习率，控制每次迭代中参数更新的步长。学习率过大可能导致算法无法收敛，学习率过小则会导致收敛速度过慢。

4. 梯度下降的步骤

1. 初始化参数：

随机初始化权重 $\mathbf{W}$ 和偏置 $b$ 。

2. 计算预测值：

根据当前的参数 $\mathbf{W}$ 和 $b$ ，计算每个样本的预测值 $\hat{y}^{(i)}$ 。

3. 计算偏导数：

根据上述公式计算代价函数关于 $\mathbf{W}$ 和 $b$ 的偏导数。

4. 更新参数：

根据偏导数和学习率更新参数 $\mathbf{W}$ 和 $b$ 。

5. 重复步骤 2 - 4：

直到满足停止条件，例如达到最大迭代次数或代价函数的变化小于某个阈值。

5. 代码示例

以下是一个使用梯度下降实现多元线性回归的 Python 代码示例：

import numpy as np# 生成一些示例数据
np.random.seed(42)
X = np.random.rand(100, 3)
y = 2 * X[:, 0] + 3 * X[:, 1] + 4 * X[:, 2] + np.random.randn(100) * 0.1# 初始化参数
W = np.zeros(X.shape[1])
b = 0# 定义超参数
learning_rate = 0.01
num_iterations = 1000# 梯度下降
for iteration in range(num_iterations):# 计算预测值y_pred = np.dot(X, W) + b# 计算误差error = y_pred - y# 计算偏导数dW = (1 / X.shape[0]) * np.dot(X.T, error)db = (1 / X.shape[0]) * np.sum(error)# 更新参数W = W - learning_rate * dWb = b - learning_rate * db# 输出最终参数
print("最终权重:", W)
print("最终偏置:", b)