当前位置：首页 > news >正文

深度学习总结（13）

news 来源：原创 2025/8/28 6:56:34

选择损失函数

为问题选择合适的损失函数，这是极其重要的。神经网络会采取各种方法使损失最小化，如果损失函数与成功完成当前任务不完全相关，那么神经网络最终的结果可能会不符合你的预期。因此，一定要明智地选择损失函数，否则你将得到意想不到的副作用。

幸运的是，对于分类、回归和序列预测等常见问题，可以遵循一些简单的指导原则来选择合适的损失区数。例如，对于二分类问题，可以使用二元交叉熵损失函数;对于多分类问题，可以使用分类交叉熵损失函数。只有在面对全新的研究问题时，你才需要自己开发损失函数。

理解fit()方法

compile()之后将是 fit()。fit()方法执行训练循环，它有以下关键参数。

要训练的数据(输入和目标):这些数据通常以 NumPy数组或 TensorFlow Dataset 对象的形式传入。

训练轮数（epochs）:训练循环应该在传入的数据上迭代多少次。

在每轮小批量梯度下降中使用的批量大小（batches）:在一次权重更新中，计算梯度所要考虑的训练样本的数量。

代码清单对 NumPy数据调用 fit()

history = model.fit(#输入样本，一个 NumPy 数组inputs,# 对应的训练目标，一个NumPy数组targets，#训练循环的批量大小为 128batch_size=128#训练循环将对数据迭代5次epochs=5)

调用 fit ()将返回一个 History对象。这个对象包含 history字段，它是一个字典，字典的键是

"loss"或特定指标名称，字典的值是这些指标每轮的值组成的列表。

 history.history{"binary accuracy"::[0.855，0.9565，0.9555，0.95，0.951]"loss":[0.6573270302042366，0.074346185088157660.076877187237143510.07412414988875389，0.076177576169371611}

监控验证数据上的损失和指标

机器学习的目标不是得到一个在训练数据上表现良好的模型–做到这一点很容易，你只需跟随梯度下降即可。机器学习的目标是得到总体上表现良好的模型，特别是在模型前所未见的数据上。一个模型在训练数据上表现良好，并不意味着它在前所未见的数据上也会表现良好。举例来说，模型有可能只是记住了训练样本和目标值之间的映射关系，但这对在前所未见的数据上进行预测毫无用处。(过拟合与泛化)

要想查看模型在新数据上的性能，标准做法是保留训练数据的一个子集作为验证数据(validation data)。你不会在这部分数据上训练模型，但会用它来计算损失值和指标值。实现方法是在 fit()中使用validation_data 参数。和训练数据一样，验证数据也可以作为 NumPy数组或TensorFlow Dataset 对象传入。

在验证数据上的损失值叫作“验证损失”，以区别于“训练损失”。请注意，必须将训练数据和验证数据严格分开:验证的目的是监控模型所学到的知识在新数据上是否真的有用。如果验证数据在训练期间被模型看到过，那么验证损失和指标就会不准确。

注意，如果想在训练完成后计算验证损失和指标，可以调用evaluate()方法。

loss and metrics = model,evaluate(val inputs, val targets, batch size=128)

evaluate()将对传入的数据进行批量迭代(批量大小为batch size)，并返回一个标量列表，其中第一个元素是验证损失，后面的元素是验证指标。如果模型没有指标，则只返回验证损失(不再是列表)。

总结

TensorFlow 是业界领先的数值计算框架，它可以在 CPU、GPU 或 TPU 上运行。它既可以自动计算任意可微表达式的梯度，也可以分布到许多设备上，还可以将程序导出到各种外部运行环境，甚至是JavaScript运行时。

Keras 是用 TensorFlow 进行深度学习的标准 API。

TensorFlow 的关键对象包括张量、变量、张量运算和梯度带。

Keras 的核心类是 Layer。层封装了一些权重和一些计算，并构成了模型。

在开始训练模型之前，需要选择优化器、损失函数和指标，你可以通过model.compile()方法指定这3个参数。

要训练模型，可以通过使用 fit()方法来运行小批量梯度下降。你也可以用它来监控模型在验证数据上的损失和指标。验证数据是模型在训练期间看不到的一组输入。

训练好模型后，可以使用 model.predict()方法对新的输入进行预测。

分类和回归术语表

分类和回归都涉及许多专业术语。这些术语在机器学习领域都有确切的定义，应该熟悉这些定义。

样本（sample）或输入（input）：进入模型的数据点。

**预测（prediction）或输出（output）**：模型的输出结果。

**目标（target）**：真实值。对于外部数据源，理想情况下模型应该能够预测出目标。

**预测误差（prediction error）或损失值（loss value）**：模型预测与目标之间的差距。

**类别（class）**：分类问题中可供选择的一组标签。举例来说，对猫狗图片进行分类时，“猫”和“狗”就是两个类别。

**标签（label）**：分类问题中类别标注的具体实例。如果1234号图片被标注为包含类别“狗”，那么“狗”就是1234号图片的标签。

**真实值（ground-truth）或标注（annotation）**：数据集的所有目标，通常由人工收集。

**二分类（binary classification）**：一项分类任务，每个输入样本都应被划分到两个互斥的类别中。

**多分类（multiclass classification）**：一项分类任务，每个输入样本都应被划分到两个以上的类别中，比如手写数字分类。

影评分类：二分类问题示例

二分类问题是最常见的一类机器学习问题。

IMDB数据集

IMDB数据集包含来自互联网电影数据库（IMDB）的50 000条严重两极化的评论。数据集被分为25 000条用于训练的评论与25 000条用于测试的评论，训练集和测试集都包含50%的正面评论与50%的负面评论。与MNIST数据集一样，IMDB数据集也内置于Keras库中。它已经过预处理：评论（单词序列）已被转换为整数序列，其中每个整数对应字典中的某个单词。这样一来，我们就可以专注于模型的构建、训练与评估。通过下面的，可以加载IMDB数据集（第一次运行时会下载约80 MB的数据）。

代码清单　加载IMDB数据集

from tensorflow.keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

参数num_words=10000的意思是仅保留训练数据中前10 000个最常出现的单词。低频词将被舍弃。这样一来，我们得到的向量数据不会太大，便于处理。如果没有这个限制，那么我们需要处理训练数据中的88 585个单词。这个数字太大，且没有必要。许多单词只出现在一个样本中，它们对于分类是没有意义的。train_data和test_data这两个变量都是由评论组成的列表，每条评论又是由单词索引组成的列表（表示单词序列）。train_labels和test_labels都是由0和1组成的列表，其中0代表负面（negative），1代表正面（positive）。

print(train_data[0])
print(train_labels[0])

由于限定为前10 000个最常出现的单词，因此单词索引都不会超过10 000。

 max([max(sequence) for sequence in train_data])

你可以将一条评论快速解码为英文单词。

代码清单　将评论解码为文本

word_index = imdb.get_word_index() # word_index是一个将单词映射为整数索引的字典
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])  #将字典的键和值交换，将整数索引映射为单词
decoded_review = " ".join([reverse_word_index.get(i - 3, "?") for i in train_data[0]])  #对评论解码。注意，索引减去了3，因为0、1、2分别是为“padding”（填充）、“start of sequence”（序列开始）、“unknown”（未知词）保留的索引