当前位置: 首页 > news >正文

科普:GRU、LSTM及RNN

GRU(门控循环单元)、LSTM(长短期记忆网络)、RNN(循环神经网络)均为处理序列数据的神经网络模型,它们之间存在着紧密的联系与明显的差异。
我们重点看一下GRU,并比较它们。

一、GRU算法简述

1. 背景与定位

GRU(Gated Recurrent Unit)循环神经网络(RNN)的改进变体,由Cho等人在2014年提出。它通过引入“门控机制”解决了传统RNN的梯度消失问题,同时简化了LSTM的复杂结构,成为处理序列数据(如时间序列、自然语言)的常用模型。

2. 核心结构与原理

GRU包含两个核心“门控单元”:更新门(Update Gate)重置门(Reset Gate),通过控制信息的流动来保留长期依赖。

(1)更新门(Update Gate, z t z_t zt
  • 作用:决定前一时刻的隐藏状态 h t − 1 h_{t-1} ht1有多少信息被保留到当前时刻 h t h_t ht
  • 公式
    z t = σ ( W z ⋅ [ h t − 1 , x t ] + b z ) z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z) zt=σ(Wz[ht1,xt]+bz)
    其中 σ \sigma σ是Sigmoid函数,输出值在 [0, 1] 之间。
    - z t ≈ 1 z_t \approx 1 zt1:保留更多历史信息;
    - z t ≈ 0 z_t \approx 0 zt0:丢弃更多历史信息,依赖当前输入。
(2)重置门(Reset Gate, r t r_t rt
  • 作用:控制前一时刻隐藏状态 h t − 1 h_{t-1} ht1对当前候选状态 h ~ t \tilde{h}_t h~t的影响。
  • 公式
    r t = σ ( W r ⋅ [ h t − 1 , x t ] + b r ) r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r) rt=σ(Wr[ht1,xt]+br)
    - r t ≈ 1 r_t \approx 1 rt1:保留全部历史信息;
    - r t ≈ 0 r_t \approx 0 rt0:忽略历史信息,仅用当前输入计算候选状态。
(3)候选隐藏状态(Candidate Hidden State, h ~ t \tilde{h}_t h~t
  • 公式
    h ~ t = tanh ⁡ ( W h ⋅ [ r t ⊙ h t − 1 , x t ] + b h ) \tilde{h}_t = \tanh\left( W_h \cdot [r_t \odot h_{t-1}, x_t] + b_h \right) h~t=tanh(Wh[rtht1,xt]+bh)
    通过重置门 r t r_t rt对历史状态 h t − 1 h_{t-1} ht1进行“遗忘”,再与当前输入 x t x_t xt结合,生成候选状态。
(4)最终隐藏状态(Final Hidden State, h t h_t ht
  • 公式
    h t = z t ⊙ h t − 1 + ( 1 − z t ) ⊙ h ~ t h_t = z_t \odot h_{t-1} + (1 - z_t) \odot \tilde{h}_t ht=ztht1+(1zt)h~t
    通过更新门 z t z_t zt融合历史状态 h t − 1 h_{t-1} ht1和候选状态 h ~ t \tilde{h}_t h~t
    • z t = 1 z_t = 1 zt=1:直接保留历史状态(无更新);
    • z t = 0 z_t = 0 zt=0:完全采用候选状态(更新为新信息)。

GRU是LSTM的轻量化变体,通过“更新门”和“重置门”平衡了模型的记忆能力与计算效率,适用于需要处理序列数据且追求高效性的场景。其核心思想是通过门控机制动态控制信息的流动,是循环神经网络在实际应用中的重要改进之一。

二、三者关系

  • RNN是基础:RNN是最早用于处理序列数据的神经网络模型,它引入了循环结构,能够利用序列中先前的信息。这种结构使得RNN在处理具有时间顺序的数据,如自然语言文本、时间序列数据等方面具有独特优势。然而,传统RNN存在梯度消失或梯度爆炸的问题,这限制了它对长序列信息的记忆能力。
  • LSTM是RNN的改进:为了解决RNN的梯度问题,LSTM应运而生。LSTM在RNN的基础上进行了重大改进,引入了门控机制,包括输入门、遗忘门和输出门。这些门控单元可以有效地控制信息的流入、流出和保留,使得模型能够更好地捕捉序列中的长期依赖关系,避免了梯度消失或爆炸的问题。
  • GRU是LSTM的简化变体:GRU是在LSTM之后提出的一种变体,它同样是为了处理序列数据并解决RNN的梯度问题。GRU对LSTM的结构进行了简化,将输入门和遗忘门合并为一个更新门,并引入了重置门。这种简化的结构在一定程度上减少了模型的参数数量,从而提高了训练效率,同时在很多任务中也能取得与LSTM相近的性能。
对比维度RNNLSTMGRU
结构复杂度结构简单,仅包含一个隐藏状态和一个循环连接相对复杂,引入了细胞状态和三个门控单元(输入门、遗忘门、输出门)结构相对LSTM有所简化,只有两个门控单元(更新门和重置门),没有独立的细胞状态
梯度问题容易出现梯度消失或梯度爆炸问题,难以处理长序列数据通过门控机制有效地解决了梯度消失或爆炸问题,能够更好地处理长序列数据同样解决了梯度问题,由于结构简化,在某些情况下训练效率可能更高
训练效率训练速度相对较快,但由于梯度问题,模型性能可能受限训练速度相对较慢,因为其结构复杂,参数较多训练速度通常比LSTM快,因为参数数量较少
内存需求内存需求较低,因为结构简单内存需求较高,因为需要存储细胞状态和多个门控单元的信息内存需求相对LSTM较低
应用场景适用于处理短序列数据或对模型复杂度要求较低的场景广泛应用于各种需要处理长序列数据的任务,如自然语言处理、语音识别等在处理长序列数据时表现良好,尤其在数据量有限或对训练效率要求较高的情况下具有优势

综上所述,RNN是基础模型,LSTM是对RNN的改进,而GRU是LSTM的简化变体。在实际应用中,需要根据具体任务的需求、数据的特点以及计算资源等因素来选择合适的模型。

相关文章:

科普:GRU、LSTM及RNN

GRU(门控循环单元)、LSTM(长短期记忆网络)、RNN(循环神经网络)均为处理序列数据的神经网络模型,它们之间存在着紧密的联系与明显的差异。 我们重点看一下GRU,并比较它们。 一、GRU算…...

java+postgresql+swagger-多表关联insert操作(七)

入参为json,然后根据需要对多张表进行操作: 入参格式: [{"custstoreName":"swagger-测试经销商01","customerName":"swagger-测试客户01","propertyNo":"swaggertest01",&quo…...

如何将/dev/ubuntu-vg/lv-data的空间扩展到/dev/ubuntu-vg/ubuntu-lv的空间上

要将 /dev/ubuntu-vg/lv-data 的空间扩展到 /dev/ubuntu-vg/ubuntu-lv 上,实际上是将 lv-data 的空间释放出来,并将其分配给 ubuntu-lv。以下是详细的步骤和操作说明: 已知信息 你有两个逻辑卷: /dev/ubuntu-vg/lv-data/dev/ubun…...

No module named ‘keras.engine‘

目录 报错代码: tensorflow-gpu安装 2024.01.05 keras和tf版本对应关系: 报错代码: try:from keras.src.engine import base_layer, data_adapterfrom keras.src.engine.training import _disallow_inside_tf_function, _get_verbosity, …...

python应用之使用pdfplumber 解析pdf文件内容

目录标题 1. 通过 pdfplumber.open() 解析复杂PDF:1-2. 报错:V2 : v3 使用tk 库运行环境准备完整代码保存运行测试步骤方式二:命令行方式(适用于自动化) 测试用例示例常见问题排查1. 无文件选择对话框弹出&…...

【学Rust写CAD】36 颜色插值函数(alpha256.rs补充方法)

源码 pub fn alpha_lerp(self,src: Argb, dst: Argb, clip: u32) -> Argb {self.alpha_mul_256(clip).lerp(src, dst)}这个函数 alpha_lerp 是一个颜色插值(线性插值,lerp)函数,它结合了透明度混合(alpha_mul_256&…...

[GN] 通讯协议 - Uart

系列文章目录 sigrokdecode 模块学习指南 — 准备阶段 文章目录 系列文章目录前言通讯协议Uart通讯协议什么是UartUART通信协议 其他协议后续待更 前言 在阅读libsigrokdecode源码之前,先学习通讯协议。so hard!! 通讯协议 Uart通讯协议 …...

C# 状态模式深度解析:构建灵活的状态驱动系统

一、状态模式概述 状态模式(State Pattern)是一种行为型设计模式,它允许对象在其内部状态改变时改变其行为,使对象看起来像是修改了它的类。这种模式将特定状态相关的行为局部化,并且将不同状态的行为分割开来。 状态…...

MySQL学习笔记四

第六章过滤数据 6.1使用WHERE子句 输入: SELECT job_id, job_title FROM jobs WHERE min_salary4200; 输出: 说明:在需要特定数据时需要根据条件对数据库中的数据进行过滤,即指定搜索条件(过滤条件)&a…...

Node环境安装

1.下载安装 作为开发使用,追求长期运行的Node环境,建议选择LTS版本(长期支持稳定版),本地测试可以选择最新版本。首先,访问Node.js官网下载安装程序,好在官网默认就有下载链接: 直接点击下载即可&#xff…...

浏览器自动化操作AI工具-browser-use

一、项目概述 Browser-Use 是一个将大型语言模型(LLM)与浏览器自动化结合的开源工具,旨在通过AI代理实现智能化的网页交互操作。其核心目标是为开发者提供一种无需编写复杂脚本即可完成网页自动化任务的解决方案,支持从数据抓取到…...

极氪汽车云原生架构落地实践

云原生架构落地实践的背景 随着极氪数字业务的飞速发展,背后的 IT 技术也在不断更新迭代。极氪极为重视客户对服务的体验,并将系统稳定性、业务功能的迭代效率、问题的快速定位和解决视为构建核心竞争力的基石。 为快速响应用户的需求,例如…...

[ctfshow web入门] web16

信息收集 提示:对于测试用的探针,使用完毕后要及时删除,可能会造成信息泄露 试试url/phpinfo.php url/phpsysinfo.php url/tz.php tz.php能用 点击phpinfo,查看phpinfo信息,搜索flag,发现flag被保存为变量…...

沧州铁狮子

又名“镇海吼”,是中国现存年代最久、形体最大的铸铁狮子,具有深厚的历史文化底蕴和独特的艺术价值。以下是关于沧州铁狮子的详细介绍: 历史背景 • 铸造年代:沧州铁狮子铸造于后周广顺三年(953年)&#…...

【Android Sdk】uiautomatorviewer.bats闪退问题如何解决?

目录 一、uiautomatorviewer.bats闪退 1. 报错场景 2. 问题原因 3. 解决方法 前言 具体操作 一、uiautomatorviewer.bats闪退 1. 报错场景 SDK的tools文件夹中uiautomatorviewer.bat双击闪退不能打开,直接双击uiautomatorviewer.bat闪退。 双击打不开uiaut…...

Redis7——进阶篇(八)

前言:此篇文章系本人学习过程中记录下来的笔记,里面难免会有不少欠缺的地方,诚心期待大家多多给予指教。 基础篇: Redis(一)Redis(二)Redis(三)Redis&#x…...

蓝桥杯 封闭图形个数 刷题笔记

分析 写一个node结构 定义两个数一个存数值 一个存图形个数 分解每个输入的数 的每一位 为每个输入的数赋值一个封闭图形个数的值作为判断依据 重写 cmp函数作为 sort的判断依据 #include<iostream> #include<bits/stdc.h> using namespace std; const int N…...

AI大模型底层技术——结合 Prompt Engineering 的 LoRA

目录 1. 结合 Prompt Engineering 的 LoRA&#xff1f; (1) 定义 (2) 核心思想 2. 核心功能 3. 对比传统通用微调 4. 技术要素 (1) Prompt Engineering (2) LoRA 微调 (3) Prompt & LoRA 协同优化 5. 难点及解决 6. 技术路径 7. 具体技术实现 8. 应用场景 9. …...

7-Zip如何创建分卷压缩文件,进行分批压缩?

相信很多小伙伴在传输文件时会选择先压缩成7-Zip等压缩包后再传输&#xff0c;但如果压缩的文件过大大&#xff0c;传输速度就会很慢&#xff0c;或者上传压缩文件到云盘时也会受到文件大小的限制。 要解决以上问题&#xff0c;我们可以 把文件压缩成多个标准的压缩包&#xf…...

【蓝桥杯省赛】 02 包子凑数

题目描述 小明想知道包子铺用给定的蒸笼规格能凑出多少种无法组成的包子数目。若无法组成的数目无限&#xff0c;输出 INF。 输入格式 第一行为整数 N N N&#xff08;蒸笼种数&#xff09;接下来 N N N 行每行一个整数 A i A_i Ai​&#xff08;每种蒸笼的包子数&#x…...

人工智能通识速览(Part3. 强化学习)

三、强化学习 1. 基本概念 强化学习是机器学习中的一个重要领域&#xff0c;它涉及智能体&#xff08;agent&#xff09;如何在环境中采取一系列行动&#xff0c;以最大化累积奖励。以下是关于强化学习的详细介绍&#xff1a; 智能体&#xff1a;是一个能够感知环境并采取行动…...

深度解析LinkedList工作原理

引言 在 Java 编程中&#xff0c;集合框架是处理数据存储和操作的强大工具。LinkedList 作为其中的重要成员&#xff0c;为我们提供了一种灵活的列表实现方式。与 ArrayList 基于数组的实现不同&#xff0c;LinkedList 采用链表结构&#xff0c;这使得它在某些操作上具有独特的…...

excel的逻辑类型函数(主要包括if、and、or、not、xor、iserror、iferror、true、false、ifs、ifna、switch)

目录 1. IF 函数2. AND 函数3. OR 函数4. NOT 函数5. XOR 函数6. ISERROR 函数7. IFERROR 函数8. TRUE 与 FALSE9. IFS 函数10. IFNA 函数11. SWITCH 函数 1. IF 函数 功能&#xff1a; 根据指定条件判断结果&#xff0c;如果条件为 TRUE&#xff0c;则返回一个值&#xff1b;…...

数据驱动金融韧性升级,开启数据交换“新范式”:构建“实时、国产化强适配”的数据交换与共享平台

在金融行业&#xff0c;数据不只是“资产”&#xff0c;更是贯穿风控、合规、营销与运营的核心“生命线”。而在数字化加速与信创战略并行推进的当下&#xff0c;金融行业对于“实时数据流通”的需求从未如此迫切。 面对业务复杂性提升、国产化替代加速&#xff0c;以及监管科…...

cpp自学 day20(文件操作)

基本概念 程序运行时产生的数据都属于临时数据&#xff0c;程序一旦运行结束都会被释放 通过文件可以将数据持久化 C中对文件操作需要包含头文件 <fstream> 文件类型分为两种&#xff1a; 文本文件 - 文件以文本的ASCII码形式存储在计算机中二进制文件 - 文件以文本的…...

Qt饼状图在图例上追踪鼠标落点

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、饼状图的关键接口二、关键代码1.鼠标移动事件2.核心判断逻辑 总结 前言 最近做了一个项目&#xff0c;需要当鼠标在饼状图上移动的时候展示Slice的内容&am…...

ZKmall开源商城服务端验证:Jakarta Validation 详解

ZKmall开源商城基于Spring Boot 3构建&#xff0c;其服务端数据验证采用Jakarta Validation API​&#xff08;原JSR 380规范&#xff09;&#xff0c;通过声明式注解与自定义扩展机制实现高效、灵活的数据校验体系。以下从技术实现、核心能力、场景优化三个维度展开解析&#…...

操作系统概述(3)

批处理系统 1.单道批处理系统 单道批处理系统是成批地处理作用&#xff0c;并且始终只有一道作业在内存中的系统。优点&#xff1a;提高系统资源的利用率和系统吞吐量。缺点&#xff1a;系统中的资源得不到充分利用。 2.多道批处理系统 引入多道程序设计技术&#xff0c;是…...

深入理解 Object.entries():基础用法与 Object.keys() 的核心区别

深入理解 Object.entries()&#xff1a;基础用法与 Object.keys() 的核心区别 一、Object.entries() 是什么&#xff1f; Object.entries() 是 JavaScript 中的一个内置方法&#xff0c;用于将对象的 ‌可枚举属性‌&#xff08;自身的、非继承的&#xff09;转换为一个数组。…...

GitHub 趋势日报 (2025年04月06日)

GitHub 趋势日报 (2025年04月06日) 本日报由 TrendForge 系统生成 https://trendforge.devlive.org/ &#x1f4c8; 今日整体趋势 Top 10 排名项目名称项目描述今日获星语言1microsoft/markitdownPython tool for converting files and office documents to Markdown.⭐ 548Py…...

Visual Studio 中使用 Clang 作为 C/C++ 编译器时,设置优化选项方法

在 Visual Studio 中使用 Clang 作为 C/C 编译器时&#xff0c;可以通过以下方法设置优化选项&#xff1a; 方法 1&#xff1a;通过项目属性设置&#xff08;推荐&#xff09; 右键项目 → 属性 配置属性 → C/C → 优化 优化&#xff1a;选择优化级别 /O0 - 禁用优化&#x…...

现场测试的特点与测试设备的基本要求

在各类测试场景中&#xff0c;现场测试有着不可替代的作用。不过&#xff0c;它也面临着诸多难题&#xff0c;对测试设备也有着特殊要求。今天&#xff0c;咱们就深入探讨一下现场测试的特点与测试设备的基本要求。 现场测试的特点 场地电磁环境噪声问题 建议环境噪声低于…...

构建一个最简单的UDP服务器和客户端并逐行解析

目录 1.服务器 &#xff08;1&#xff09;基本概念 &#xff08;2&#xff09;代码实现 3.逐行解析 1&#xff09; 2&#xff09; 3&#xff09; 4&#xff09; 5&#xff09; 6&#xff09; 7&#xff09; 8&#xff09; 1. response.getBytes(): 2.response.get…...

LeetCode 1638 统计只差一个字符的子串

标题&#xff1a;LeetCode 算法题 - 统计只差一个字符的子串数目 在算法学习的过程中&#xff0c;我们经常会遇到一些有趣的字符串问题。今天就来探讨一道这样的题目&#xff1a;给定两个字符串 s 和 t &#xff0c;找出 s 中的非空子串的数目&#xff0c;这些子串满足替换一个…...

DAY 39 leetcode 18--哈希表.四数之和

题号18 给你一个由 n 个整数组成的数组 nums &#xff0c;和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] &#xff08;若两个四元组元素一一对应&#xff0c;则认为两个四元组重复&#xff09;&#xff1a; 和…...

关于lombok的异常快速解决办法

前言&#xff1a; 通过实践而发现真理&#xff0c;又通过实践而证实真理和发展真理。从感性认识而能动地发展到理性认识&#xff0c;又从理性认识而能动地指导革命实践&#xff0c;改造主观世界和客观世界。实践、认识、再实践、再认识&#xff0c;这种形式&#xff0c;循环往…...

Android SELinux权限使用

Android SELinux权限使用 一、SELinux开关 adb在线修改seLinux(也可以改配置文件彻底关闭) $ getenforce; //获取当前seLinux状态,Enforcing(表示已打开),Permissive(表示已关闭) $ setenforce 1; //打开seLinux $ setenforce 0; //关闭seLinux二、命令查看sel…...

JavaWeb注解的原理

WebServlet("/mayikt") 是 Java Servlet 3.0 及以上版本中引入的注解&#xff0c;用于简化 Servlet 的配置。其原理和与 Servlet 映射关系的知识点如下&#xff1a; 1. 注解的作用与原理 核心功能&#xff1a; WebServlet 注解的作用是将当前类声明为一个 Servlet&am…...

类和对象—多态

目录 1、多态的概念2、多态的条件3、向上转型3.1 概念3.2 使用场景 4、向下转型5、多态的优缺点 1、多态的概念 多态&#xff0c;通俗来讲就是多种形态&#xff0c;即对于同样的行为&#xff0c;不同的对象去完成会产生不同的状态。比如动物都会吃东西&#xff0c;小狗和小猫都…...

vscode启动vite+Vue3项目调试功能,QQ浏览器为例

1、增加launch.json配置 {// 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。// 欲了解更多信息&#xff0c;请访问: https://go.microsoft.com/fwlink/?linkid830387"version": "0.2.0","configurations": [{"type&quo…...

Spring MVC 的执行流程以及运行原理

一&#xff0e;什么是 MVC&#xff1f; MVC 是 Model 、 View 和 Controller 的缩写&#xff0c;分别代表 Web 应用程序中的 3 种职责&#xff0c; MVC 是一种软件设计规范。它将业务逻辑、数据、显示分离的方法来组织代码&#xff0c;降低了视图与业 务逻辑之间的…...

08-Spring MVC 请求处理流程全解析

Spring MVC 请求处理流程全解析&#xff08;从 DispatcherServlet 到 Controller&#xff09; Spring MVC 是构建 Web 应用的基础框架&#xff0c;而其中最核心的组件就是 DispatcherServlet&#xff0c;它作为整个请求流程的入口和协调者&#xff0c;掌控了从接收请求、分发到…...

pikachu靶场搭建教程,csfr实操

靶场安装 靶场下载地址 百度网盘下载地址和密码 百度网盘 请输入提取码 0278 github靶场下载地址 https://gitcode.com/Resource-Bundle-Collection/c7cc1 安装前提 这两个文件夹的配置文件都要进行更改修改数据库密码 D:\phpstudy_pro\WWW\pikachu\inc D:\phpstudy_pro…...

MCP + 数据库,一种比 RAG 检索效果更好的新方式!

大家好&#xff0c;欢迎来到 code秘密花园&#xff0c;我是 ConardLi。 在今天这一期&#xff0c;我们将一起学习一种基于 MCP 提高大模型检索外部知识精度的新思路&#xff0c;实测比 RAG 效果要好很多。 目前市面上讲 MCP 的教程比较多&#xff0c;但大多数都是一些概念性的…...

图像处理中的梯度计算、边缘检测与凸包特征分析技术详解

前言 书接上文 OpenCV图像处理实战全解析&#xff1a;镜像、缩放、矫正、水印与降噪技术详解-CSDN博客文章浏览阅读1.1k次&#xff0c;点赞38次&#xff0c;收藏29次。本文系统解析OpenCV图像处理五大实战场景&#xff1a;镜像反转的三种坐标变换模式&#xff0c;图像缩放的尺…...

TDengine 与 taosAdapter 的结合(一)

一、引言 在当今数字化时代&#xff0c;数据量呈爆发式增长&#xff0c;尤其是物联网、工业互联网等领域产生的海量时序数据&#xff0c;对数据存储和处理提出了极高要求。TDengine 作为一款高性能、开源的时序数据库&#xff0c;专为这些场景设计并优化&#xff0c;在时序数据…...

23种设计模式-行为型模式-模板方法

文章目录 简介场景解决代码关键优化点 总结 简介 模板方法是一种行为设计模式&#xff0c;它在超类中定义了一个算法的框架&#xff0c;允许子类在不修改结构的情况下重写算法的特定步骤。 场景 假如你正在开发一款分析文档的数据挖掘程序。用户需要向程序输入各种格式&…...

Django异步执行任务django-background-tasks

1、安装 pip install django-background-tasks 2、注册服务 INSTALLED_APPS [...background_task, ]3、生成表 // 生成迁移 python manage.py makemigrations //运行迁移 python manage.py migrate 4、创建文件&#xff0c;模拟任务 from background_task import backgrou…...

从零设计React-Markdown组件的实现方案

从零设计React-Markdown组件的实现方案 现在,把这些步骤整理成代码结构。首先是解析器类,用正则表达式分割文本为Token,然后生成AST。接着,编写一个React组件,接收Markdown字符串,解析成AST,遍历AST生成对应的React元素。处理代码高亮需要引入第三方库,但用户不允许用现…...

如何在React中集成 PDF.js?构建支持打印下载的PDF阅读器详解

本文深入解析基于 React 和 PDF.js 构建 PDF 查看器的实现方案&#xff0c;该组件支持 PDF 渲染、图片打印和下载功能&#xff0c;并包含完整的加载状态与错误处理机制。 完整代码在最后 一个PDF 文件&#xff1a; https://mozilla.github.io/pdf.js/web/compressed.tracemo…...