从代码学习深度学习 - GRU PyTorch版
文章目录
- 前言
- 一、GRU模型介绍
- 1.1 GRU的核心机制
- 1.2 GRU的优势
- 1.3 PyTorch中的实现
- 二、数据加载与预处理
- 2.1 代码实现
- 2.2 解析
- 三、GRU模型定义
- 3.1 代码实现
- 3.2 实例化
- 3.3 解析
- 四、训练与预测
- 4.1 代码实现(utils_for_train.py)
- 4.2 在GRU.ipynb中的使用
- 4.3 输出与可视化
- 4.4 解析
- 五、工具函数解析
- 5.1 Timer
- 5.2 Accumulator
- 5.3 try_gpu
- 六、可视化与绘图
- 6.1 代码实现
- 6.2 解析
- 总结
前言
在深度学习领域,循环神经网络(RNN)及其变种如GRU(Gated Recurrent Unit,门控循环单元)在处理序列数据时表现出色。相比传统RNN,GRU通过更新门(Update Gate)和重置门(Reset Gate)简化了结构,同时保持了对长期依赖关系的建模能力。本篇博客将通过PyTorch实现一个基于GRU的文本生成模型,结合《The Time Machine》数据集,逐步解析代码实现的全过程。从数据预处理到模型训练,再到结果可视化,我们将深入探讨每个模块的功能,并展示完整的代码实现。
一、GRU模型介绍
GRU(Gated Recurrent Unit,门控循环单元)是循环神经网络(RNN)的一种改进变种,由Kyunghyun Cho等人在2014年提出。它旨在解决传统RNN在处理长序列时面临的梯度消失问题,同时通过更简洁的结构提升计算效率。相比LSTM(长短期记忆网络),GRU减少了一个门控单元,使用更新门(Update Gate)和重置门(Reset Gate)来控制信息的流动,从而在保持性能的同时降低参数量。
1.1 GRU的核心机制
GRU的工作原理基于两个关键的门控单元:
-
更新门(Update Gate, z t z_t zt)
更新门决定当前时间步的隐藏状态在多大程度上保留上一时间步的隐藏状态,以及接受多少新输入的信息。其计算公式为:
z t = σ ( W z ⋅ [ h t − 1 , x t ] + b z ) z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z) zt=σ(Wz⋅[ht−1,xt]+bz)
其中, σ \sigma σ是sigmoid激活函数, h t − 1 h_{t-1} ht−1 是上一时间步的隐藏状态, x t x_t xt 是当前输入, W z W_z Wz 和 b z b_z bz 是可训练的参数。 -
重置门(Reset Gate, r t r_t rt)
重置门控制前一时间步的隐藏状态在多大程度上影响当前候选隐藏状态的计算。其计算公式为:
r t = σ ( W r ⋅ [ h t − 1 , x t ] + b r ) r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r) rt=σ(Wr⋅[ht−1,xt]+br)
基于这两个门,GRU计算候选隐藏状态和新隐藏状态:
- 候选隐藏状态( h ~ t \tilde{h}_t h~t):
h ~ t = tanh ( W h ⋅ [ r t ⊙ h t − 1 , x t ] + b h ) \tilde{h}_t = \tanh(W_h \cdot [r_t \odot h_{t-1}, x_t] + b_h) h~t=tanh(Wh⋅[rt
相关文章:
从代码学习深度学习 - GRU PyTorch版
文章目录 前言一、GRU模型介绍1.1 GRU的核心机制1.2 GRU的优势1.3 PyTorch中的实现二、数据加载与预处理2.1 代码实现2.2 解析三、GRU模型定义3.1 代码实现3.2 实例化3.3 解析四、训练与预测4.1 代码实现(utils_for_train.py)4.2 在GRU.ipynb中的使用4.3 输出与可视化4.4 解析…...
重要头文件下的函数
1、<cctype> #include<cctype>加入这个头文件就可以调用以下函数: 1、isalpha(x) 判断x是否为字母 isalpha 2、isdigit(x) 判断x是否为数字 isdigit 3、islower(x) 判断x是否为小写字母 islower 4、isupper(x) 判断x是否为大写字母 isupper 5、isa…...
JSON-lib考古现场:在2025年打开赛博古董店的奇妙冒险
各位在代码海洋里捡贝壳的探险家们!今天我们要打开一个尘封的Java古董箱——JSON-lib!这货可是2003年的老宝贝,比在座很多程序员的工龄还大!准备好穿越回Web 1.0时代,感受XML统治时期的余晖了吗? …...
实操日志之Windows Server2008R2 IIS7 配置Php7.4.3
Windows7IIS7PHPMySQL - 适用于(2008 R2 / 8 / 10) 配置需求 操作系统:windows2008IIS版本:7.0 PHP版本:7.4.3 MySQL版本:5.7.12 及以上第一步: 安装 IIS 默认”Internet 信息服务“打勾安…...
Paraformer和SenseVoice模型训练
0.数据准备 如果是训练paraformer模型,我们只需要准备train_wav.scp和train_text.txt以及验证集val_wav.scp和val_text.txt即可。 如果是训练SenseVoice模型,我们需要准备下面几个文件: train_text.txt train_wav.scp train_text_language.…...
Axure数据可视化科技感大屏设计资料——赋能多领域,展示无限价值
可视化大屏如何高效、直观地展示数据,并将其转化为有价值的决策依据,成为了许多企业和组织面临的共同挑战。Axure大屏可视化模板,作为一款强大的数据展示工具,正在以其出色的交互性和可定制性,赋能多个领域,…...
C# Winform 入门(7)之简单的抽奖系统邮件
由于比较喜欢英语,这里就把汉字属性名都改成英语了 声明变量,生成随机数 int key 0;Random random new Random(); 窗体加载 private void Form1_Load(object sender, EventArgs e) {timer1.Enabledfalse; } 开始按钮 private void txt_begin_Click(ob…...
scala编程语言
一、抽象类 1、抽象属性和抽象方法 1)基本语法 (1)定义抽象类:abstract class Person{} //通过 abstract 关键字标记抽象类 (2)定义抽象属性:val|var name:String //一个属性没有初始化…...
光流 | Farneback、Horn-Schunck、Lucas-Kanade、Lucas-Kanade DoG四种光流算法对比(附matlab源码)
🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅 以下是对四种光流算法的对比分析及MATLAB验证方案,包含原理说明、应用场景和可执行代码🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅🍅 🍓🍓🍓🍓🍍🍍🍍🍍🍍🍍🍍🍍🍍🍍…...
146. LRU 缓存 带TTL的LRU缓存实现(拓展)
LRU缓存 方法一:手动实现双向链表 哈希表 struct Node{int val;int key;Node* prev;Node* next;Node(int a, int b): key(a), val(b), prev(nullptr), next(nullptr) {}Node():key(0), val(0), prev(nullptr), next(nullptr) {} }; class LRUCache { private:Node* removeTai…...
【C++代码整洁之道】第九章 设计模式和习惯用法
文章目录 1. 设计原则与设计模式2. 常见的设计模式及应用场景2.1 单例模式2.2 依赖注入2.3 Adapter模式2.4 Strategy模式2.5 Command模式2.6 Command处理器模式2.7 Composite模式2.8 Observer模式2.9 Factory模式2.10 Facade模式2.11 Money Class模式2.12 特例模式 3. 常见的设…...
【动态规划】混合背包模板
混合背包问题题解 题目传送门:AcWing 7. 混合背包问题 一、题目描述 有 N 种物品和一个容量是 V 的背包。物品分为三类: 01背包:只能用1次(si -1)完全背包:可以用无限次(si 0)多…...
Linux 线程1-线程的概念、线程与进程区别、线程的创建、线程的调度机制、线程函数传参
目录 1.线程概念 1.1 线程的核心特点 1.2线程的工作模型 1.3线程的潜在问题 1.4 进程和线程区别 1.4.1执行与调度 1.4.2进程和线程区别对比表 1.4.3应用场景 1.4.4总结 2.线程的创建 2.1验证进程结束后,进程中所有的线程都会强制…...
Python 助力人工智能与机器学习的深度融合
技术革新的 “源动力” 在当今数字化时代,人工智能(AI)与机器学习(ML)无疑是最具影响力的技术领域,它们如同强大的引擎,推动着各个行业的变革与发展。Python 凭借其简洁易读的语法、丰富的库和…...
【GPT写代码】动作视频切截图研究器
目录 背景源代码 end 背景 用python写一个windows环境运行的动作视频切截图研究器,用路径浏览的方式指定待处理的视频文件,然后点击分析按钮,再预览区域显示视频预览画面,然后拖动时间轴,可以在预览区域刷新显示相应的…...
从0到神谕:GPT系列的进化狂想曲——用AI之眼见证人类语言的终极形态
开始:语言模型的星际跃迁 在人工智能的浩瀚星海中,GPT系列如同光年加速器,推动人类语言的理解与生成突破维度限制。从2018年GPT-1的初试啼声,到2025年GPT-4o的全模态智慧,这场进化狂想曲不仅是技术的迭代史,…...
Go并发编程终极指南:深入内核与工程实践
Go并发编程终极指南:深入内核与工程实践 Go并发编程终极指南:深入内核与工程实践 Go并发编程终极指南:深入内核与工程实践一、Goroutine调度器深度解构1.1 调度器演进史1.2 调度器源码级解析1.3 调度器可视化诊断 二、Channel底层实现揭秘2.1…...
Neo4j操作数据库(Cypher语法)
Neo4j数据库操作语法 使用的数据库版本 (终端查询) >neo4j --version 2025.03.0批量上传数据 UNWIND [{name: Alice, age: 30},{name: Bob, age: 25} ] AS person CREATE (p:Person) SET p.name = person.name, p.age = person.age RETURN p;查询结点总数 MATCH (n) RETU…...
DHCP之中继 Relay-snooping及配置命令
随着网络规模的不断扩大,网络设备不断增多,企业内不同的用户可能分布在不同的网段,一台 DHCP 服务器在正常情况下无法满足多个网段的地址分配需求。如果还需要通过 DHCP 服务器分配 IP 地址,则需要跨网段发送 DHCP 报文 DHCP Rel…...
小迪安全110-tp框架,版本缺陷,不安全写法,路由访问,利用链
入口文件 前端页面显示文件 就是这串代码让我们看到前端的笑脸图 不用入口文件我们要访问这个文件就要按照开发手册的url访问模式 那就是index.php/index/index/index 对应的就是模块,控制器,操作,函数名 如果想要创建新模块,和操…...
Vanna:用检索增强生成(RAG)技术革新自然语言转SQL
引言:为什么我们需要更智能的SQL生成? 在数据驱动的业务环境中,SQL 仍然是数据分析的核心工具。然而,编写正确的 SQL 查询需要专业知识,而大型语言模型(LLM)直接生成的 SQL 往往存在**幻觉&…...
大语言模型应用和训练(人工智能)
RAG(Retrieval Augmented Generation,检索增强生成) 定义:是一种将外部知识检索与语言模型生成能力相结合的技术。在传统的大语言模型中,模型的知识是在预训练阶段学到的,可能存在知识过时或不完整的问题。…...
NLP高频面试题(三十五)——LLaMA / ChatGLM / BLOOM的区别
一、LLaMA 训练数据 LLaMA由Meta开发,拥有多个参数规模的版本:7B、13B、33B和65B。其中,较小的7B和13B版本采用了约1万亿tokens进行训练,而更大的33B和65B版本使用了约1.4万亿tokens进行训练。 模型结构特点 LLaMA采用与GPT类似的causal decoder-only Transformer结构,…...
【Python Cookbook】字符串和文本(五):递归下降分析器
目录 案例 目录 案例 字符串和文本(一)1.使用多个界定符分割字符串2.字符串开头或结尾匹配3.用 Shell 通配符匹配字符串4.字符串匹配和搜索5.字符串搜索和替换字符串和文本(三)11.删除字符串中不需要的字符12.审查清理文本字符串1…...
专为 零基础初学者 设计的最简前端学习路线,聚焦核心内容,避免过度扩展,帮你快速入门并建立信心!
第一阶段:HTML CSS(2-3周) 目标:能写出静态网页,理解盒子模型和布局。 HTML基础 常用标签:<div>, <p>, <img>, <a>, <ul>, <form> 语义化标签:<head…...
大模型-爬虫prompt
爬虫怎么写prompt 以下基于deepseek r1 总结: 以下是为大模型设计的结构化Prompt模板,用于生成专业级网络爬虫Python脚本。此Prompt包含技术约束、反检测策略和数据处理要求,可根据具体需求调整参数: 爬虫脚本生成Prompt模板1 …...
PyTorch深度实践:基于累积最大值的注意力机制设计与性能优化
引言:注意力机制的创新与挑战 在自然语言处理和序列建模中,注意力机制(Attention)是提升模型性能的关键技术。传统基于 softmax 的注意力机制虽然成熟,但在计算效率和长序列建模中存在局限。本文将介绍一种创新的注意…...
编程bug001:off by one (差一错误)
为什么看似简单的编码错误可能造成大灾难? Off-by-One Error(简称OBOE),即由于边界条件处理不当,导致循环、计数或索引时多算一次或少算一次的错误。这是非常常见的编程bug类型,尤其在处理数组、字符串或范…...
JavaScript 中常见的鼠标事件及应用
JavaScript 中常见的鼠标事件及应用 在 JavaScript 中,鼠标事件是用户与网页进行交互的重要方式,通过监听这些事件,开发者可以实现各种交互效果,如点击、悬停、拖动等。 在 JavaScript 中,鼠标事件类型多样࿰…...
使用Expo框架开发APP——详细教程
在移动应用开发日益普及的今天,跨平台开发工具越来越受到开发者青睐。Expo 是基于 React Native 的一整套工具和服务,它能够大幅降低原生开发的门槛,让开发者只需关注业务逻辑和界面实现,而不用纠结于复杂的原生配置。本文将从零开…...
深入探究 Hive 中的 MAP 类型:特点、创建与应用
摘要 在大数据处理领域,Hive 作为一个基于 Hadoop 的数据仓库基础设施,提供了方便的数据存储和分析功能。Hive 中的 MAP 类型是一种强大的数据类型,它允许用户以键值对的形式存储和操作数据。本文将深入探讨 Hive 中 MAP 类型的特点,详细介绍如何创建含有 MAP 类型字段的表…...
前端开发工厂模式的优缺点是什么?
一、什么是工厂模式? 工厂模式属于创建型设计模式,核心思想是将对象的实例化过程封装到特定方法或类中,让客户端不需要直接通过new关键字创建对象。 举个例子:就像奶茶店不需要顾客自己调配饮品,而是通过"点单-…...
框架PasteForm实际开发案例,换个口味显示数据,支持echarts,只需要标记几个特性即可在管理端显示(2)
PasteForm框架的主要思想就是对Dto进行标记特性,然后管理端的页面就会以不一样的UI呈现 使用PasteForm框架开发,让你免去开发管理端的烦恼,你只需要专注于业务端和用户端! 在管理端中,如果说表格是基本的显示方式,那么图表chart就是一个锦上添花的体现! 如果一个项目拥…...
QEMU学习之路(5)— 从0到1构建Linux系统镜像
QEMU学习之路(5)— 从0到1构建Linux系统镜像 一、前言 参考:从内核到可启动镜像:0到1构建你的极简Linux系统 二、linux源码获取 安装编译依赖 sudo apt install -y build-essential libncurses-dev flex bison libssl-dev li…...
AI Agent设计模式一:Chain
概念 :线性任务流设计 ✅ 优点:逻辑清晰易调试,适合线性处理流程❌ 缺点:缺乏动态分支能力 from typing import TypedDictfrom langgraph.graph import StateGraph, END# 定义后续用到的一些变量 class CustomState(TypedDict):p…...
实操(进程状态,R/S/D/T/t/X/Z)Linux
1 R 状态并不直接代表进程在运行,而是该进程在运行队列中进行排队,由操作系统在内存维护的队列 #include <stdio.h> #include <unistd.h>int main() {while(1){printf("我在运行吗\n");sleep(1);}return 0; }查看状态(…...
T-SQL语言的自动化运维
T-SQL语言的自动化运维 引言 在现代IT环境中,自动化运维成为了提高效率、降低成本、提升稳定性的重要手段。数据库作为系统的重要组成部分,运维工作往往需要耗费大量的人力物力。T-SQL(Transact-SQL)作为Microsoft SQL Server的…...
Day06 分割编译与中断处理
文章目录 1. 例程harib03c(c源文件分割并整理makefile文件)2. 例程harib03c(用于描述段的信息)3. 例程harib03d(初始化PIC)4. 例程harib03e(中断处理程序) 1. 例程harib03cÿ…...
数字化三维实训室:无穿戴动作捕捉技术如何赋能体育与舞蹈
在高校体育与舞蹈教学中,精准的动作训练至关重要。传统训练方式依赖教练的肉眼观察与手动记录,存在效率低下、误差较大的情况。尤其在快速连续动作或复杂肢体形态的捕捉中,人工判读易受主观经验限制,难以实现标准化评估。面对传统…...
6. RabbitMQ 死信队列的详细操作编写
6. RabbitMQ 死信队列的详细操作编写 文章目录 6. RabbitMQ 死信队列的详细操作编写1. 死信的概念2. 消息 TTL 过期(触发死信队列)3. 队列超过队列的最大长度(触发死信队列)4. 消息被拒(触发死信队列)5. 最后: 1. 死信的概念 先从概念上解释上搞清楚这个定义&#…...
AI浪潮下,新手短视频制作的破局之道
AI浪潮下,新手短视频制作的破局之道 引言:短视频新时代,AI 带来的机遇与挑战 在当下这个信息飞速流转的时代,短视频已然成为了人们生活中不可或缺的一部分。无论是在通勤路上、午休间隙,还是茶余饭后,打开…...
合肥SMT贴片制造工艺全解析
内容概要 作为电子制造领域的核心工艺,SMT(表面贴装技术)在合肥地区电子产业链中占据重要地位。本解析以合肥本地化生产场景为基础,系统梳理从焊膏印刷到成品检测的全流程工艺框架。具体而言,制造流程涵盖四大核心阶段…...
ctfshow VIP题目限免 协议头信息泄露
根据提示是协议头信息泄露,那就我们抓个包,抓包才能看到请求体响应体里的协议头啊,抓包之后在响应包里发现了 flag...
【国产工具链发展,生态链分析,TSMaster VS Zcanpro的技术对比】
黎明篇:国产汽车测试工具链的崛起、差距与未来 副标题: 从跟随到超越,中国技术如何重塑全球研发体系 一、国产工具链的崛起逻辑 政策驱动:信创战略与供应链安全需求 国家“十四五”规划明确提出支持关键领域技术自主化࿰…...
Linux线程同步与互斥:【线程互斥】【线程同步】【线程池】
目录 一.线程互斥 1.1相关概念 1.2互斥量 为什么会出现负数?? 互斥量的接口 问题: 1.3互斥量实现原理探究 1.4互斥量封装 二.线程同步 2.1条件变量 2.2同步概念与竞态条件 2.3接口 2.4生产者消费者模型 优点 2.5基于BlockingQueue的…...
网络安全基础知识总结
什么是网络安全 采取必要措施,来防范对网络的攻击,侵入,干扰,破坏和非法使用,以及防范一些意外事故,使得网络处于稳定可靠运行的状态,保障网络数据的完整性、保密性、可用性的能力(CIA)。 举例…...
请求被中止: 未能创建 SSL/TLS 安全通道。
需要安装vs2019社区办,下载VisualStudioSetup.exe后,报无法从"https://aka,ms/vs/16/release/channel"下载通道清单错误,接着打开%temp%目录下的最新日志,发现日志里报: [27d4:000f][2025-04-04T21:15:43] …...
FPGA学习(四)——状态机重写LED流水灯并仿真
FPGA学习(四)——状态机重写LED流水灯并仿真 目录 FPGA学习(四)——状态机重写LED流水灯并仿真一、状态机编程思想1、状态机要素2、状态迁移图3、状态机写法 二、LED流水灯仿真实现1、代码实现2、modesim仿真 三、实现效果1、仿真…...
spark 集群
hadoop客户端环境准备 找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\hadoop-3.1.0) ① 打开环境变量 ② 在下方系统变量中新建HADOOP_HOME环境变量,值就是保存hadoop的目录。 效果如下: ③ 配置P…...
leetcode117 填充每个节点的下一个右侧节点指针2
LeetCode 116 和 117 都是关于填充二叉树节点的 next 指针的问题,但它们的区别在于 树的类型 不同,117与 116 题类似,但给定的树是 普通二叉树(不一定完全填充),即某些节点可能缺少左或右子节点。 树的结构…...