当前位置: 首页 > news >正文

大模型为什么学新忘旧(大模型为什么会有灾难性遗忘)?

字数:2500字


一、前言:当学霸变成“金鱼”

假设你班上有个学霸,数学考满分,英语拿第一,物理称霸全校。某天,他突然宣布:“我要全面发展!从今天起学打篮球!”

一周后,你发现:

  • 他的三步上篮帅到掉渣…
  • 但数学公式全忘了!
  • 物理题连F=ma都写成“F=麦当劳”!

此时全班陷入沉默,你颤抖着说:“你…这是被知识诅咒了吗?!”

别慌,这不是恐怖片剧情,而是AI界的日常——“灾难性遗忘”(Catastrophic Forgetting)。今天我们就来聊聊,为什么那些号称“智商爆表”的大模型(比如GPT、BERT),一学新知识就秒变“七秒记忆的金鱼”?

友情提示:本文全程无公式,只有大量不正经比喻,请放心食用🍔


二、什么是灾难性遗忘?

1. 举个栗子🌰

假设你训练了一个AI:

  • 第一周:让它学“猫 vs 狗”。

    • 结果:AI看到布偶猫照片,自信输出“猫!”,甚至能吐槽“这只猫的发量比我多”。
  • 第二周:让它改学“汽车 vs 飞机”。

    • 结果:AI看到汽车照片大喊“飞机!”,看到狗照片时…它死机了。

这就叫灾难性遗忘:AI学会了新知识,却把旧知识忘得一干二净,仿佛大脑被格式化。

2. 人类的凡尔赛 vs AI的惨案

你可能会说:“这AI太菜了!我小学学加减法,中学学方程,现在也没忘1+1=2啊!”

但AI表示委屈:“你们人类睡觉会‘整理记忆’,而我…训练时连口水都没得喝啊!”(真相预警:后文会解释为什么人类不易遗忘)


三、灾难性遗忘的三大“凶手”

凶手1:神经网络的“擦黑板式学习”

场景还原:
  • AI的大脑:好比一块黑板,写满数学公式(旧任务)。
  • 学新任务时:老师大喊:“同学们,现在学语文!把黑板擦干净!”
  • 结果:公式全没了,改写《滕王阁序》…
技术解释:
  • 神经网络通过调整参数(可以理解为黑板上的字)来学习。
  • 每次学新任务时,梯度下降算法会疯狂改写参数,旧任务的信息就被覆盖了。
栗子🌰:

你教AI认猫,它悄悄把“胡须=猫”写进小本本(参数)。后来学汽车时,它觉得“车轮=汽车”,于是…把小本本上“胡须”那页撕了当草稿纸!


凶手2:大模型的“瑞士军刀困境”

灵魂拷问:

为什么ChatGPT这种大模型更容易遗忘?

答案:
  • 大模型像瑞士军刀:一个工具干所有事(聊天、写代码、编冷笑话)。
  • 但刀片是共用的!当你用“开瓶器”功能时,“剪刀”部分的螺丝可能被拧松。
技术解释:
  • 大模型的参数是共享的。比如GPT的某个神经元既要懂语法,又要懂物理,还要理解“老板说的‘尽快’到底是多快”。
  • 学新任务时,这些“多功能神经元”被迫改行,旧技能就丢了。
栗子🌰:

假设AI有个神经元叫“张三”,原本负责识别猫耳朵。

  • 任务A:张三说:“只要看到三角耳,我就激活!喵~”
  • 任务B:学汽车时,AI怒吼:“张三!别管耳朵了,快去盯轮胎!”
  • 结果:张三彻底忘记三角耳是啥,从此看到米老鼠耳朵都觉得是轮胎…

凶手3:“川菜师傅学做马卡龙”

场景还原:
  • 旧任务:AI是个川菜大厨,麻辣鲜香信手拈来。
  • 新任务:老板要求:“明天起改做法式甜点!”
  • 结果:AI把辣椒酱挤进马卡龙,还理直气壮:“这不都是红色的吗?!”
技术解释:
  • 如果新旧任务数据差异太大(比如从图像分类转学文本生成),模型需要彻底“洗心革面”,遗忘就成了必然。
栗子🌰:
  • 旧任务:猫的图片都是毛茸茸的,特征集中在纹理。
  • 新任务:汽车的图片全是金属线条,特征集中在边缘。
  • AI懵了:“这俩是一个世界的吗?!算了,我删了旧知识重新学吧…”

四、为什么人类不会秒变金鱼?

每次提到灾难性遗忘,AI都会哭诉:“凭什么你们人类不会忘?!”

人类的作弊技能1:睡觉也能“复习”

  • 科学事实:人类睡眠时,海马体会回放白天记忆,把重要信息“刻”进大脑皮层。
  • AI的愤怒:“我训练时连个午觉都不让睡!24小时被数据灌顶!”

人类的作弊技能2:大脑分“部门”

  • 例子:学开车时,主要用运动皮层;背单词时,用语言皮层。
  • AI的愤怒:“我的参数全是打工人!一个神经元要干10份工,能不疯吗?!”

五、拯救金鱼脑AI的四大套路

虽然完全解决灾难性遗忘仍是难题,但科学家们总结了几招“防失忆秘籍”:

套路1:“做新题也要复习旧题” → 回放(Replay)

  • 操作:训练新任务时,随机混入5%的旧任务数据。
  • 栗子🌰:
    • 学汽车时,每学100张汽车图,就塞5张猫图给AI:“这是朕为你打下的江山,不许忘!”
  • 缺点:存旧数据占用硬盘,还让AI抱怨:“老板,你这是职场PUA!”

套路2:“某些知识锁进保险箱” → 参数隔离(Parameter Isolation)

  • 操作:固定部分参数不更新,只调新参数。
  • 栗子🌰:
    • 告诉AI:“识别猫耳朵的神经元不准动!其他随便改。”
  • 缺点:大模型参数太多,选哪些“锁住”成了玄学…

套路3:“重要知识贴上封条” → 弹性权重巩固(EWC)

  • 操作:计算参数的重要性,给关键参数“绑橡皮筋”,限制改动幅度。
  • 栗子🌰:
    • AI想调整“猫耳朵”参数时,EWC大喊:“这个参数动一次罚100块!”

套路4:“让AI当时间管理大师” → 多任务训练

  • 操作:新旧任务一起训练。
  • 栗子🌰:
    • 每天既学猫狗,又学汽车,还要学怎么区分奶茶配料…
  • 缺点:AI怒吼:“生产队的驴也不敢这么加班啊!”

六、结语:AI的“遗忘”与人类的傲慢

看到这里,你可能觉得灾难性遗忘是个技术问题。但换个角度想:这何尝不是人类对AI的“傲慢”?

我们要求AI:

  • 既要通用如瑞士军刀,
  • 又要精准如手术刀,
  • 还不能忘记任何一个功能…

却忘了自己背个单词还要靠“abandon”续命。

或许,真正的解决之道不是让AI更像人,而是承认AI的局限——就像接受学霸偶尔也会忘记带钥匙。

🌝 PS:如果你看完还没懂…恭喜你,你的大脑也经历了灾难性遗忘!建议立即转发给朋友,用他们的脑子帮你记住🌚


📌 感谢你读到这里!如果喜欢,请点赞分享,救救这位熬夜写科普的博主吧🐼

相关文章:

大模型为什么学新忘旧(大模型为什么会有灾难性遗忘)?

字数:2500字 一、前言:当学霸变成“金鱼” 假设你班上有个学霸,数学考满分,英语拿第一,物理称霸全校。某天,他突然宣布:“我要全面发展!从今天起学打篮球!” 一周后&am…...

07 负载均衡

01 面试题 面试题: 说一下如何实现的负载均衡 1.使用的proxy_pass模块 2.通过proxy_pass模块转发给upstream模块定义的地址池 3.使用的是默认的rr轮训算法分发到后端的服务器02 负载均衡配置 # 写一个简单的配置 [rootlikexy-nginx-01 conf.d]# cat lb.conf server {listen …...

谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式

BLIP3-o 是一个统一的多模态模型,它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。与之前扩散 VAE 特征或原始像素的研究不同,BLIP3-o 扩散了语义丰富的CLIP 图像特征,从而为图像理解和生成构建了强大而高效的架构。 此外还…...

【深度学习】残差网络(ResNet)

如果按照李沐老师书上来,学完 VGG 后还有 NiN 和 GoogLeNet 要学,但是这两个我之前听都没听过,而且我看到我导师有发过 ResNet 相关的论文,就想跳过它们直接看后面的内容。 现在看来这不算是不踏实,因为李沐老师说如果…...

最新最热门的特征提取方式:CVOCA光学高速复值卷积

目录 一、问题背景与核心挑战 二、CVOCA核心原理与数学建模 1. 复杂值卷积的数学表达 2. CVOCA的三大光学映射策略 三、关键创新点详解 1. 合成波长技术(Synthetic Wavelength) 2. 复杂值电光调制器(CVEOM) 3. 时间-波长交织卷积计算 四、代码实现与仿真验证 1. …...

获取Class的方式有哪些?

在Java中,获取Class对象是进行反射操作的基础,以下是几种常见方式及其详细说明,以及记忆方法: 1. 使用 .class 语法 语法:类名.class(如 String.class)。特点: 编译时确定&#xff…...

STM32八股【9】-----volatile关键字

一句话: 主要是为了防止编译器优化导致无法得到最新的值。主要用于以下三处: 1.在中断中修改访问的变量。 2.多任务(线程)共享的变量。 3.硬件寄存器变量 问题 嵌入式程序中常出现变量值改变但代码未正确响应的现象 原因 编译…...

【android bluetooth 协议分析 01】【HCI 层介绍 4】【LeSetEventMask命令介绍】

在蓝牙协议栈中,HCI_LE_Set_Event_Mask 是一个主机控制接口(HCI)层的命令,属于 LE(Low Energy)控制指令集。该命令用于 配置控制器向主机报告哪些 LE 事件,以便主机能够根据需求控制被中断的事件…...

关于文件分片的介绍和应用

文件分片,顾名思义,就是将一个大文件分割成多个小的文件块(chunk)。每个文件块都是原始文件的一部分,并可以通过特定的方式将这些小文件块重新组装成原始文件。 1. 基本原理: 文件分片从底层来看,主要是对…...

tauri2项目动态添加 Sidecar可行性方案(运行时配置)

tauri2官方文档:Embedding External Binaries | Tauri Tauri 的 Sidecar 功能允许你将外部二进制文件(External Binaries)与你的 Tauri 应用程序捆绑在一起,并在运行时调用它们。根据你提供的链接和 Tauri 的文档,以下…...

20倍云台球机是一种高性能的监控设备

20倍云台球机是一种高性能的监控设备,其主要特点包括20倍光学变焦能力和云台旋转功能。以下是对20倍云台球机的详细分析: 一、主要特点 20倍光学变焦 : 摄像机镜头能够在保持图像清晰度的前提下,将监控目标放大20倍。 这一功能…...

利用html制作简历网页和求职信息网页

前言 大家好,我是maybe。今天下午初步学习了html的基础知识。做了两个小网页,一个网页是简历网页,一个网页是求职信息填写网页。跟大家分享一波~ 说明:我不打算上传图片。所以如果有朋友按照我的代码运行网页,会出现一个没有图片…...

三:操作系统线程管理之线程概念

揭秘幕后英雄:理解线程的奥秘与优势 在当今软件应用的世界里,流畅的用户体验、高效的后台处理以及强大的并发能力已经成为必备的要求。你有没有想过,一个看似简单的程序是如何在同一时间处理多个任务的?或者为什么一个复杂的应用…...

学习黑客Active Directory 入门指南(一)

Active Directory 入门指南(一):初识AD与核心概念 🔑 大家好!欢迎来到 “Active Directory 入门指南” 系列的第一篇。在本系列中,我们将逐步深入探索 Windows Active Directory (AD)——微软推出的目录服…...

单列集合——ArrayList,LinkedList,迭代器的底层原理和源码

ArrayList 底层原理 空参构造创建集合时候,创建长度为零的数组名叫elementData,还有个成员变量size用来记录元素的个数,第一次空参,size长度是0。 添加第一个元素时,底层创建新的长度尾10的数组,数组中默认…...

C++模板进阶使用技巧

非类型模板参数缺省模板参数类模板特化全特化偏特化 模板的分离编译 我们在前面已经初识了 模板并且在各种数据结构的实现中,熟练掌握了模板的一些基础功能。 至于为什么是基础功能,因为模板还有一些进阶的功能,像非类型模板参数&#xff0c…...

jqGrid冻结列错行问题,将冻结表格(悬浮表格)与 正常表格进行高度同步

在使用jqGrid时,如果你遇到了冻结列(也称为冻结表格或悬浮表格)与正常表格高度不同步的问题,这通常是由于CSS样式或者布局管理不当所导致的。下面是一些解决此问题的步骤和建议: 1. 确保CSS样式正确 首先,确…...

Milvus(25):搜索迭代器、使用分区密钥

1 搜索迭代器 ANN Search 对单次查询可调用的实体数量有最大限制,因此仅使用基本 ANN Search 可能无法满足大规模检索的需求。对于 topK 超过 16,384 的 ANN Search 请求,建议考虑使用 SearchIterator。 1.1 概述 Search 请求返回搜索结果,而…...

深入探索PointNet:点云处理的革命性算法

深入探索PointNet:点云处理的革命性算法 在计算机视觉和三维图形处理领域,点云数据的处理一直是一个极具挑战性的任务。点云数据由一系列三维坐标点组成,这些点通常来源于激光雷达(LiDAR)、三维扫描仪等设备。与图像数…...

四品种交易策略

策略概述 策略思路: 交易品种:同时交易四个品种,每个品种使用总资金的10%。 合约选择:使用连续合约(data0)发出交易信号,实际交易 主力合约(data1)和下一个主力合约(data2)。 资金管理:总资金用A_CurrentEquity表示,交易手数据此计算。 止损执行:盘中达到止损…...

NC61 两数之和【牛客网】

文章目录 零、原题链接一、题目描述二、测试用例三、解题思路3.1 排序双指针3.1 散列 四、参考代码4.1 排序双指针4.2 散列 零、原题链接 NC61 两数之和 一、题目描述 二、测试用例 三、解题思路 3.1 排序双指针 基本思路:   先对序列进行排序,然后…...

电子电路:什么是电流离散性特征?

关于电荷的量子化,即电荷的最小单位是电子的电荷量e。在宏观电路中,由于电子数量极大,电流看起来是连续的。但在微观层面,比如纳米器件或单电子晶体管中,单个电子的移动就会引起可观测的离散电流。 还要提到散粒噪声,这是电流离散性的表现之一。当电流非常小时,例如在二…...

如何完美安装GPU版本的torch、torchvision----解决torch安装慢 无法安装 需要翻墙安装 安装的是GPU版本但无法使用的GPU的错误

声明: 本视频灵感来自b站 如何解决所述问题 如何安装对应版本的torch、torchvison 进入pytorch官网 进入历史版本 这里以cuda11.8 torch 2.1.0为例演示 根据文档找到要安装的torch、torchvison版本 但不是使用命令行直接安装 命令行直接安装可能面临着 安装慢…...

Fine-Tuning Llama2 with LoRA

Fine-Tuning Llama2 with LoRA 1. What is LoRA?2. How does LoRA work?3. Applying LoRA to Llama2 models4. LoRA finetuning recipe in torchtune5. Trading off memory and model performance with LoRAModel ArgumentsReferences https://docs.pytorch.org/torchtune/ma…...

Compose笔记(二十五)--Brush

这一节主要了解一下Compose中Brush,在Jetpack Compose里,Brush是一个重要的 API,它用于定义填充图形的颜色渐变或图案,能够为界面元素添加丰富的视觉效果。简单总结如下: 1 常见场景 填充形状(圆形、矩形等) 创建渐变…...

访问共享打印机提示错误0x00000709多种解决方法(支持win10和win11)

在日常办公和生活中,打印机是不可或缺的重要设备。然而,有时在连接打印机的过程中,我们可能会遇到错误代码0x00000709的提示。有更新补丁导致的、有访问共享打印机服务异常、有访问共享打印机驱动异常等问题导致的,针对访问共享打…...

【Mini 型 http 服务器】—— int get_line(int sock, char *buf, int size);

作用: 逐行读取并返回读取的内容长度,取出读取的内容保存在 buf 数组中 输入: int sock:需要读取的 sock 套接字 char *buf:用于记录保存读取的内容 int size:buf 的大小 返回值: -1 表示 读取…...

Window远程连接Linux桌面版

Window远程连接Linux桌面版 卸载RealVNC Server 一、确认是否安装了 VNC Server 先检查是否已安装: which vncserver # 或 dpkg -l | grep vnc # 或 rpm -qa | grep vnc二、在 Debian / Ubuntu 上卸载(.deb 安装) 1. 卸载 RealVNC Serve…...

计算机系统---TPU(张量处理单元)

一、定义与定位 TPU(Tensor Processing Unit) 是由Google开发的专用AI加速芯片,专为深度学习中的张量运算(如矩阵乘法、卷积)设计,属于ASIC(专用集成电路)范畴。其核心目标是在算力…...

5.18 day24

知识点回顾: 元组可迭代对象os模块 作业:对自己电脑的不同文件夹利用今天学到的知识操作下,理解下os路径。 元组 元组的特点: 有序,可以重复,这一点和列表一样 元组中的元素不能修改,这一点…...

Filament引擎(一) ——渲染框架设计

filament是谷歌开源的一个基于物理渲染(PBR)的轻量级、高性能的实时渲染框架,其框架架构设计并不复杂,后端RHI的设计也比较简单。重点其实在于项目中材质、光照模型背后的方程式和理论,以及对它们的实现。相关的信息,可以参考官方…...

区间带边权并查集,XY4060泄露的测试点

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 码蹄集 二、解题报告 1、思路分析 关于带边权并查集:并查集&…...

虚幻引擎5-Unreal Engine笔记之Pawn与胶囊体的关系

虚幻引擎5-Unreal Engine笔记之Pawn与胶囊体的关系 code review! 文章目录 虚幻引擎5-Unreal Engine笔记之Pawn与胶囊体的关系1. 什么是Pawn?2. 什么是胶囊体(Capsule Component)?3. Pawn与胶囊体的具体关系(1&#x…...

USB学习【11】STM32 USB初始化过程详解

1.USB HAL库里面的结构体 为了管理USB,HAL首先构建了一下几个结构体 1.1 USBD设备结构体 USB用到的全局变量,保存了USB生命周期的全部信息。 1.2 USBD PCD底层硬件操作相关结构体 1.3 USB 配置结构体 USB速度、PHY接口类型、端点0参数等 1.4 端点配置…...

Estimation(估算):业务分析师的“不确定性对抗术”

在变化中给出最靠谱的预判。 当面对项目排期模糊、资源计划混乱、老板催问“多久能搞定”的时候, 我总会说:“别着急,我们先做个 Estimation。” 因为,没有靠谱的估算,承诺和资源分配就是空中楼阁。 什么是 Estimati…...

【MyBatis-11】MyBatis批处理:提升数据操作性能的利器

1. 批处理概述 在数据密集型应用中,频繁的单条数据操作会导致严重的性能问题。MyBatis批处理技术通过将多个SQL语句组合成一个批处理单元,显著减少与数据库的交互次数,从而大幅提升数据操作效率。 1.1 为什么需要批处理? 减少网…...

MyBatis 核心技术详解:从连接池到多表查询

一、MyBatis 连接池:提升数据库访问效率 1. 连接池的本质与作用 本质:连接池是存储数据库连接的 “容器”,负责创建、管理连接,避免频繁创建 / 销毁连接带来的性能损耗。核心问题:若无连接池,每次执行 SQ…...

2025.05.17得物机考笔试真题第一题

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 01. 魔法浮石逃生记 问题描述 LYA 不慎闯入了一片禁忌湖泊,现在她需要踩着湖中的魔法浮石迅速逃离。湖中有 n n n...

时序数据库、实时数据库与实时数仓:如何为实时数据场景选择最佳解决方案?

随着物联网、金融交易、在线游戏等场景对实时数据处理需求的增长,市场上涌现出多种专门针对实时数据处理的数据库解决方案。然而,面对时序数据库、实时数据库和实时数据仓库这三种看似相似的技术,许多技术决策者常常感到困惑:它们…...

构建一个“湖仓一体”(Data Lakehouse)系统

构建一个“湖仓一体”(Data Lakehouse)系统,关键是融合数据湖(Data Lake)的灵活性与数据仓库(Data Warehouse)的高性能分析能力。下面是构建流程的核心步骤: 一、总体架构设计 分层架…...

【C++】尾置返回类型(Trailing Return Type)总结

尾置返回类型(Trailing Return Type)是 C11 引入的一种函数返回类型声明方式,允许将返回类型放在函数参数列表之后,使用 -> 符号指定。这种语法在模板编程、Lambda 表达式和复杂类型推导时特别有用。 1. 基本语法 auto func(参…...

[人月神话_6] 另外一面 | 一页流程图 | 没有银弹

另外一面(The other face) 计算机程序是人类向机器传递信息的一种方式,为了确保意图能够被无言的机器准确理解,程序采用了严格的语法和精确的定义。(这就需要 我们有严密的逻辑思维) 然而,除了…...

GO学习指南

GO学习指南 主题一 go语言基础知识讲解 go语言面向对象编程 go语言接口详解 go语言协程 后续内容请大家持续关注,每月一主题,让各位读者能零基础、零成本学习go语言...

【机器学习】逻辑回归

文章目录 一、逻辑回归概述1.定义2.原理 二、Sigmoid函数三、梯度上升算法四、实验1.代码2.运行结果3.实验小结 一、逻辑回归概述 1.定义 Logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处…...

Nginx配置与命令

Nginx 配置文件基础 全局块(Main Context):配置影响全局的参数,如用户、进程数、日志路径等。 user nginx; # 运行Nginx的用户和组 worker_processes auto; # 工作进程数(通常设为CPU核心数&…...

测试--测试分类 (白盒 黑盒 单元 集成)

一、按照测试目标分类(测试目的是什么) 主类别细分说明1. 界面测试UI内容完整性、一致性、准确性、友好性,布局排版合理性,控件可用性等2. 功能测试检查软件功能是否符合需求说明书,常用黑盒方法:边界值、…...

工作流介绍

了解工作流对大模型进行高质量工作的辅助意义学会复现吴恩达博士的翻译工作流开源项目了解构成大模型工作流系统的关键元素学会搭建一个更复杂的业务场景工作流 一、为什么我们需要工作流? ❓ 什么样的职场打工人是合格的打工人? 反应快,理…...

学习黑客Active Directory 入门指南(五)

Active Directory 入门指南(五):管理工具、安全基础与学习路径 🛠️🛡️📚 大家好!欢迎来到 “Active Directory 入门指南” 系列的最后一篇。在前四篇中,我们已经全面探讨了Active…...

【第三篇】 SpringBoot项目中的属性配置

简介 SpringBoot支持多种配置文件格式,包括application.properties、yml和yaml等。本文章将详细介绍这三种配置文件的内容格式和详细用法,以及在程序中如何对配置文件中的属性进行读取。文章内容若存在错误或需改进的地方,欢迎大家指正&#…...

处理金融数据,特别是股票指数数据,以计算和分析RSRS(相对强度指数)

Python脚本,用于处理金融数据,特别是股票指数数据,以计算和分析RSRS(相对强度指数)指标。以下是代码的逐部分解释: 1. **导入库**: - `pandas`:用于数据处理和CSV文件操作。 - `numpy`:用于数值计算。 - `ElasticNet`:来自`sklearn.linear_model`,用于线性…...