当前位置：首页 > news >正文

十二、人工神经网络及其应用

news 来源：原创 2025/8/2 23:03:09

写在前面

这部分内容老师说很重要，不管是实验还是考试占比都非常大

AIGC的全称是“Artificial Intelligence Generated Content”，即人工智能生成内容。这一术语通常用于指代通过人工智能技术自动生成的各种类型的内容，如文本、图像、音频和视频等。随着AI技术的发展，AIGC在多个领域展现出广泛应用前景，例如自动新闻撰写、个性化推荐、智能客服、自动化设计等。

Begin

神经元与神经网络结构

首先介绍了生物神经元结构
在这里插入图片描述

上述四张ppt老师讲的比较少，我觉得应该不是重点，大部分的内容在高中也是学习过的。

下面开始步入正题：
首先介绍了神经元模型中的激活函数：
在这里插入图片描述
Rectified Linear Unit（修正线性单元），通常简写为ReLU，是人工神经网络中常用的一种激活函数。它的定义非常简单：对于输入x，如果x大于0，则输出x；如果x小于等于0，则输出0。用数学公式表示就是f(x) = max(0, x)。

ReLU函数由于其实现简单、计算效率高，并且能够有效缓解传统sigmoid和tanh等激活函数在深层网络训练过程中常见的梯度消失问题，因此在深度学习领域得到了广泛应用。不过，ReLU也有其缺点，比如可能导致某些神经元永远不被激活（即“死亡ReLUs”问题），针对这一问题，后来又出现了ReLU的变体，如Leaky ReLU、Parametric ReLU等，它们试图通过不同的方式解决这个问题。

神经网络的结构与工作方式

在这里插入图片描述
对于上图涉及到的文字，做出如下说明:

多个MP神经元的层叠：
- MP神经元指的是McCulloch-Pitts神经元模型，它是早期的人工神经元模型之一。这个模型由Warren McCulloch和Walter Pitts在1943年提出，是现代人工神经网络的基础。
- 当提到“多个MP神经元的层叠”时，这实际上是指构建一个具有多层结构的人工神经网络。每层包含多个这样的神经元（节点），它们接收来自前一层的输入，并将处理后的结果传递给下一层。这种层叠的方式能够增加网络的深度，从而允许它学习更复杂的模式。
只有一层神经元：
- 这里的描述可能是在指单层感知机（Single-layer Perceptron）。单层感知机是一种仅包含输入层和输出层（没有隐藏层）的线性分类器。它的功能有限，只能解决线性可分的问题，即可以用一条直线（在二维情况下）或超平面（在多维情况下）分开的数据集问题。
感知机引入了学习的概念：
- 感知机是由Frank Rosenblatt在1957年提出的，它不仅是一个简单的线性分类模型，而且引入了通过训练数据自动调整权重的学习算法。这意味着感知机可以通过一系列的训练样本来优化其内部参数（权重），以提高对新数据进行正确分类的能力。这是机器学习中非常重要的一个里程碑，因为它首次展示了如何让机器从数据中“学习”。

在这里插入图片描述
单层感知机的工作原理
单层感知机通过学习确定一个决策边界（即上述提到的直线、平面或超平面），该边界用于区分不同的类别。对于给定的输入向量 $x$ ，感知机计算其与权重向量 $w$ 的内积加上偏置 $b$ ： $\cdot x + b$ 。如果 $f (x)$ 大于某个阈值，则预测为一类；否则，预测为另一类。

为什么只能解决线性可分的问题？
因为单层感知机仅使用线性组合（即加权和）加上一个简单的激活函数来做出决策，所以它本质上是在寻找一个线性的决策边界。这意味着它只能处理那些能够用线性方式分割的数据集。一旦数据集中的类别不能被任何线性边界清晰地分开（即非线性可分），单层感知机就无法正确地对所有样本进行分类。
在这里插入图片描述
关于上述内容，做如下说明:
给定训练数据集，单层感知机的权重 $w_i$ 与阈值 $\theta$ 可以很容易通过学习得到。
这句话的意思是，在给定一组训练数据后，单层感知机可以通过学习算法调整其权重 $w_i$ 和阈值 $\theta$ ，以优化分类性能。

在单层感知机中，神经元的阈值 $\theta$ 可看作一个固定输入为 -1 的“哑结点”所对应的连接权重 $w_{m+1}$ ，这样，权重和阈值的学习就统一为权值的学习了。

在单层感知机中，阈值 $\theta$ 可以被视为一个特殊的权重 $w_{m+1}$ ，它对应于一个固定的输入值为 -1 的“哑结点”。这意味着阈值可以被包含在权重向量中，从而简化了权重更新的过程。

数学上，假设输入向量为 $[x_1, x_2, \dots, x_m]$ ，则加上阈值后的权重向量可以表示为
$[w_1, w_2, \dots, w_m, w_{m+1}]$ ，其中 $w_{m+1}$ 对应于阈值 $\theta$ 。输入向量也相应地扩展为 $[x_1, x_2, \dots, x_m, -1]$ ，这样权重更新就可以统一处理。

对训练样例 $(x, y)$ ，若当前感知机的输出为 $\hat{y}$ ，则感知机权重调整规则为： $w_i \leftarrow w_i + \Delta w_i$ ，其中 $\Delta w_i = l (y - \hat{y}) x_i$ 。

这里描述的是权重更新的规则。对于每个训练样本 $(x, y)$ ，感知机的预测输出为 $\hat{y}$ ，如果预测错误（即 $\neq \hat{y}$ ），则需要调整权重。
更新规则如下： $w_i \leftarrow w_i + \Delta w_i$ 其中， $\Delta w_i = l (y - \hat{y}) x_i$

$l$ 是学习率，通常是一个介于 0 和 1 之间的值，用于控制权重更新的速度。
$y$ 是实际标签。
$\hat{y}$ 是感知机的预测输出。
$x_i$ 是输入特征向量中的第 $i$ 个元素。

假定损失函数是平方误差函数，即： $\frac{1}{2} (y - \hat{y})^2$

广义上的损失函数是用来衡量模型预测值与真实值之间的差异的。对于单层感知机，常用的损失函数是平方误差函数，因为它简单且易于计算梯度。

若感知机对训练样例 $(x, y)$ 预测正确，则感知机不发生变化；否则根据错误程度进行权重的调整。
如果感知机对某个训练样本的预测是正确的（即 $\hat{y}$ ），那么权重不需要更新。如果预测错误（即 $\neq \hat{y}$ ），则根据错误的程度（ $\hat{y}$ ）调整权重。

对于为啥是上面这样计算的，下面给出一定的解释说明：
感知机的权重更新可以看作是一个简单的梯度下降过程。假设损失函数为平方误差函数：
$\frac{1}{2} (y - \hat{y})^2$ 我们希望最小化这个损失函数。根据梯度下降法，权重的更新方向应该是损失函数对权重 $w_i$ 的偏导数的负方向：
$\Delta w_i = -l \cdot \frac{\partial L}{\partial w_i}$
计算偏导数：
首先，感知机的输出为： $\hat{y} = f(w \cdot x + b)$ 其中 $f$ 是激活函数（如阶跃函数）。
假设激活函数暂时忽略（或简化为线性激活），则误差对权重的偏导数为：
$\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial w_i}$
$\frac{\partial L}{\partial \hat{y}} = -(y - \hat{y})$
$\frac{\partial \hat{y}}{\partial w_i} = x_i$ （因为 $\hat{y} = w \cdot x + b$ ）
因此： $\Delta w_i = l (y - \hat{y}) x_i$
在这里插入图片描述

对于上述左边的图，这四种叫法都是可以的，只是从不同的角度来叫的：

2层网络 vs 3层网络：
- 图中显示了输入层、隐含层和输出层。
- 如果将输入层和输出层算作一层，则可以称为“3层网络”。
- 如果只计算实际处理数据的层（即隐含层），则可以认为是“2层网络”。
- 文字说明中提到：“这两种叫法都是可以的”，因此两种说法都正确。
2个全连接层 vs 1个隐含层：
- 全连接层是指每一层的神经元与前一层的所有神经元都有连接。
- 在图中，输入层到隐含层以及隐含层到输出层都是全连接的，因此可以说有“2个全连接层”。
- 隐含层只有一个，所以也可以说有“1个隐含层”。
- 这两种说法从不同角度描述了网络结构，因此也是正确的。
2层网络：
- 这种说法通常包括输入层、隐含层（或多个隐含层）以及输出层。也就是说，从结构上讲，每一层都被计算在内。因此，在你的例子中，如果考虑到输入层、一个隐含层和输出层，整个网络可以被描述为一个“3层网络”。
3层网络：
- 另一方面，有时候输入层不被视为网络的一层，尤其是在描述网络的深度时。这是因为输入层实际上并不执行任何转换操作；它只是数据进入网络的地方。基于这个观点，只有实际进行计算的层（即隐含层和输出层）才被计入网络的层数。因此，在你的例子中，如果仅考虑执行计算的层，则该网络可以被描述为一个“2层网络”，即一个隐含层加上一个输出层。

两层网络（线性模型）

对于一个简单的两层网络（即没有隐含层，只有输入层和输出层），我们可以将其视为一个线性分类器。假设输入为 $\in \mathbb{R}^n$ ，权重向量为 $\in \mathbb{R}^n$ ，偏置项为 $b$ ，则该模型的决策函数可以表示为：
$\cdot x + b$ 这里的点积 $\cdot x$ 表示权重向量和输入向量的内积。

如果 $f (x) > 0$ ，我们预测类别为1；如果 $f (x) < 0$ ，则预测类别为-1（或0，取决于二分类问题的具体设定）。这实际上定义了一个超平面 $\cdot x + b = 0$ 作为决策边界。因此，任何仅使用线性组合的模型只能生成线性的决策边界。

三层网络（包含非线性激活函数的模型）

当我们在网络中加入至少一个隐含层，并且每个神经元都应用非线性激活函数时，模型的表达能力会大大增强。考虑一个简单的三层网络，其结构包括输入层、一个隐含层和输出层。设输入为 $\in \mathbb{R}^n$ ，隐含层有 $m$ 个神经元，每个神经元都有自己的权重向量 $W_i \in \mathbb{R}^n$ 和偏置项 $b_i$ ，以及一个非线性激活函数 $g(\cdot)$ ，如Sigmoid函数或ReLU函数等。

对于隐含层的第 $i$ 个神经元，其输出可以表示为： $h_i = g(W_i \cdot x + b_i)$

写在前面

Begin

神经元与神经网络结构

神经网络的结构与工作方式

相关文章：