当前位置：首页 > news >正文

正则化介绍

news 来源：原创 2025/8/14 23:59:14

简单介绍

正则化是用于控制模型的复杂度，防止模型在训练数据上过度拟合（overfitting）。正则化通过在模型的损失函数中引入额外的惩罚项，来对模型的参数进行约束，从而降低模型的复杂度。这个额外的惩罚通常与模型参数的大小或者数量相关，旨在鼓励模型学习简单的规律，而不是过度拟合训练数据。正则化的作用有：防止模型过拟合，减少模型复杂程度，提高模型鲁棒性。

简单来说，正则化就是让对模型影响小的权重趋向零。使用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）

L1正则化

方法：在损失函数后面加上 $\lambda$ 倍的权重向量的1范数的平方。

优点介绍：让权重向量稀疏化和防止模型过拟合，下面通过摘录某篇博客的内容来介绍优点，如下。

L1正则化可以使得参数稀疏化，即得到的参数是一个稀疏矩阵，可以用于特征选择。
- 稀疏性，说白了就是模型的很多参数是0。通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，很多参数是0，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，即使去掉对模型也没有什么影响，此时我们就可以只关注系数是非零值的特征。这相当于对模型进行了一次特征选择，只留下一些比较重要的特征，提高模型的泛化能力，降低过拟合的可能。

L2正则化

方法：在损失函数后面加上 $\lambda$ 倍的权重向量的2范数的平方

优点介绍：防止模型过拟合。

L1正则化和L2正则化总结

无论L1正则化还是L2正则化都需要选择合适的 $\lambda$ 的值，如果取值过大都会导致模型欠拟合，而过小又不能减小过拟合的程度。接下来摘录了一篇博客确定 $\lambda$ 值的经验，如下。

经验
从0开始，逐渐增大λλ。在训练集上学习到参数，然后在测试集上(我个人认为这里的测试集应该是验证集才对，以后有时间可以研究研究)验证误差。反复进行这个过程，直到测试集上的误差最小。一般的说，随着λλ从0开始增大，测试集的误分类率应该是先减小后增大，交叉验证的目的，就是为了找到误分类率最小的那个位置。建议一开始将正则项系数λ设置为0，先确定一个比较好的learning rate。然后固定该learning rate，给λλ一个值（比如1.0），然后根据validation accuracy，将λ增大或者减小10倍，增减10倍是粗调节，当你确定了λλ的合适的数量级后，比如λ=0.01λ=0.01，再进一步地细调节，比如调节为0.02，0.03，0.009之类。

Dropout（以后补充）

Dropout 是一种在神经网络中常用的正则化技术，用于减少过拟合。其原理是在网络的训练过程中，随机地将部分神经元的输出置为零（即失活），从而使得网络在每次迭代时都在不同的子网络上训练，以减少神经元之间的复杂依赖关系，从而增强模型的泛化能力。

简单介绍

L1正则化

L2正则化

L1正则化和L2正则化总结

Dropout（以后补充）

相关文章：