当前位置：首页 > news >正文

深度学习分词器char-level实战详解

news 来源：原创 2025/8/18 10:11:16

一、三种分词器基本介绍

word-level：将文本按照空格或者标点分割成单词，但是词典大小太大

subword-level：词根分词（主流）

char-level：将文本按照字母级别分割成token

二、charlevel代码

导包：

import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import sklearn
import pandas as pd
import os
import sys
import time
from tqdm.auto import tqdm
import torch
import torch.nn as nn
import torch.nn.functional as Fprint(sys.version_info)
for module in mpl, np, pd, sklearn, torch:print(module.__name__, module.__version__)device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
print(device)seed = 42
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)

数据准备（需下载）：

# https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt
#文件已经下载好了
with open("./shakespeare.txt", "r", encoding="utf8") as file:text = file.read()print("length", len(text))
print(text[0:100])

构造字典：

# 1. generate vocab
# 2. build mapping char->id
# 3. data -> id_data  把数据都转为id
# 4. a b c d [EOS] -> [BOS] b c d  预测下一个字符生成的模型，也就是输入是a，输出就是b#去重，留下独立字符，并排序（排序是为了好看）
vocab = sorted(set(text)) # 利用set去重，sorted排序
print(len(vocab))
print(vocab)#每个字符都编好号，enumerate对每一个位置编号，生成的是列表中是元组，下面字典生成式
char2idx = {char:idx for idx, char in enumerate(vocab)}
print(char2idx)# 把vocab从列表变为ndarray
idx2char = np.array(vocab)
print(idx2char)#把字符都转换为id
text_as_int = np.array([char2idx[c] for c in text])
print(text_as_int.shape)
print(len(text_as_int))
print(text_as_int[0:10])
print(text[0:10])

enumerate() 是Python内置函数，用于给可迭代对象添加序号
语法：enumerate(iterable, start=0)
作用：将列表/字符串等转换为(索引, 元素)元组的序列

一共1115394个字符，这里分为11043个batch，每个样本101个字符，原因如下：

比如有Jeep四个字符，那么那前三个字母输入J就预测到e，再输入e预测到e再预测到p，相当于错开预测。前100和最后一个错开，就是上图的效果。

把text分为样本：

rom torch.utils.data import Dataset, DataLoaderclass CharDataset(Dataset):#text_as_int是字符的id列表，seq_length是每个样本的长度def __init__(self, text_as_int, seq_length):self.sub_len = seq_length + 1 #一个样本的长度self.text_as_int = text_as_intself.num_seq = len(text_as_int) // self.sub_len #样本的个数def __getitem__(self, index):#index是样本的索引，返回的是一个样本，比如第一个，就是0-100的字符,总计101个字符return self.text_as_int[index * self.sub_len: (index + 1) * self.sub_len]def __len__(self): #返回样本的个数return self.num_seq#batch是一个列表，列表中的每一个元素是一个样本，有101个字符，前100个是输入，后100个是输出
def collat_fct(batch):src_list = [] #输入trg_list = [] #输出for part in batch:src_list.append(part[:-1]) #输入trg_list.append(part[1:]) #输出src_list = np.array(src_list) #把列表转换为ndarraytrg_list = np.array(trg_list) #把列表转换为ndarrayreturn torch.Tensor(src_list).to(dtype=torch.int64), torch.Tensor(trg_list).to(dtype=torch.int64) #返回的是一个元组，元组中的每一个元素是一个torch.Tensor#每个样本的长度是101，也就是100个字符+1个结束符
train_ds = CharDataset(text_as_int, 100)
train_dl = DataLoader(train_ds, batch_size=64, shuffle=True, collate_fn=collat_fct)
#%%

seq_length：模型输入的序列长度（例如100）
sub_len：实际存储长度 = 输入长度 + 目标长度（每个样本多存1个字符用于构造目标）

假设原始文本数字编码为：[1,2,3,4,5,6,7,8,9,10]，当seq_length=3时：样本1: [1,2,3,4] → 输入[1,2,3]，目标[2,3,4] 样本2: [5,6,7,8] → 输入[5,6,7]，目标[6,7,8] 剩余字符[9,10]被舍弃

定义模型：

class CharRNN(nn.Module):def __init__(self, vocab_size, embedding_dim=256, hidden_dim=1024):super(CharRNN, self).__init__()self.embedding = nn.Embedding(vocab_size, embedding_dim)#batch_first=True,输入的数据格式是(batch_size, seq_len, embedding_dim)self.rnn = nn.RNN(embedding_dim, hidden_dim, batch_first=True)self.fc = nn.Linear(hidden_dim, vocab_size)def forward(self, x, hidden=None):x = self.embedding(x) #(batch_size, seq_len) -> (batch_size, seq_len, embedding_dim) (64, 100, 256)#这里和02的差异是没有只拿最后一个输出，而是把所有的输出都拿出来了#(batch_size, seq_len, embedding_dim)->(batch_size, seq_len, hidden_dim)(64, 100, 1024)output, hidden = self.rnn(x, hidden)x = self.fc(output) #[bs, seq_len, hidden_dim]--->[bs, seq_len, vocab_size] (64, 100,65)return x, hidden #x的shape是(batch_size, seq_len, vocab_size)vocab_size = len(vocab)print("{:=^80}".format(" 一层单向 RNN "))       
for key, value in CharRNN(vocab_size).named_parameters():print(f"{key:^40}paramerters num: {np.prod(value.shape)}")

因为字典太小，所以embedding_dim要放大。输入形状(bs,seq)→输出形状(bs,seq,emb_dim)。

这样的话才能把里面的信息分的更清楚，其他情况都是缩小。

生成的时候不能只取最后一个时间步了，全都要。

前向传播流程：x→Embedding→RNN→Linear

训练：

class SaveCheckpointsCallback:def __init__(self, save_dir, save_step=5000, save_best_only=True):"""Save checkpoints each save_epoch epoch. We save checkpoint by epoch in this implementation.Usually, training scripts with pytorch evaluating model and save checkpoint by step.Args:save_dir (str): dir to save checkpointsave_epoch (int, optional): the frequency to save checkpoint. Defaults to 1.save_best_only (bool, optional): If True, only save the best model or save each model at every epoch."""self.save_dir = save_dirself.save_step = save_stepself.save_best_only = save_best_onlyself.best_metrics = -1# mkdirif not os.path.exists(self.save_dir):os.mkdir(self.save_dir)def __call__(self, step, state_dict, metric=None):if step % self.save_step > 0:returnif self.save_best_only:assert metric is not Noneif metric >= self.best_metrics:# save checkpointstorch.save(state_dict, os.path.join(self.save_dir, "best.ckpt"))# update best metricsself.best_metrics = metricelse:torch.save(state_dict, os.path.join(self.save_dir, f"{step}.ckpt"))#%%
# 训练
def training(model, train_loader, epoch, loss_fct, optimizer, save_ckpt_callback=None,stateful=False      # 想用stateful，batch里的数据就必须连续，不能打乱):record_dict = {"train": [],}global_step = 0model.train()hidden = Nonewith tqdm(total=epoch * len(train_loader)) as pbar:for epoch_id in range(epoch):# trainingfor datas, labels in train_loader:datas = datas.to(device)labels = labels.to(device)# 梯度清空optimizer.zero_grad()# 模型前向计算,如果数据集打乱了，stateful=False，hidden就要清空# 如果数据集没有打乱，stateful=True，hidden就不需要清空logits, hidden = model(datas, hidden=hidden if stateful else None)# 计算损失,交叉熵损失第一个参数要是二阶张量，第二个参数要是一阶张量，所以要reshapeloss = loss_fct(logits.reshape(-1, vocab_size), labels.reshape(-1))# 梯度回传loss.backward()# 调整优化器，包括学习率的变动等optimizer.step()loss = loss.cpu().item()# recordrecord_dict["train"].append({"loss": loss, "step": global_step})# 保存模型权重 save model checkpointif save_ckpt_callback is not None:save_ckpt_callback(global_step, model.state_dict(), metric=-loss)# udate stepglobal_step += 1pbar.update(1)pbar.set_postfix({"epoch": epoch_id})return record_dictepoch = 100model = CharRNN(vocab_size=vocab_size)# 1. 定义损失函数 采用交叉熵损失 
loss_fct = nn.CrossEntropyLoss()
# 2. 定义优化器 采用 adam
# Optimizers specified in the torch.optim package
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)# save best
if not os.path.exists("checkpoints"):os.makedirs("checkpoints")
save_ckpt_callback = SaveCheckpointsCallback("checkpoints/text_generation", save_step=1000, save_best_only=True)model = model.to(device)#%%
record = training(model,train_dl,epoch,loss_fct,optimizer,save_ckpt_callback=save_ckpt_callback,)
#%%
plt.plot([i["step"] for i in record["train"][::50]], [i["loss"] for i in record["train"][::50]], label="train")
plt.grid()
plt.show()
#%% md
## 推理
#%%#下面的例子是为了说明temperature
logits = torch.tensor([400.0,600.0]) #这里是logitsprobs1 = F.softmax(logits, dim=-1)
print(probs1)
#%%
logits = torch.tensor([0.04,0.06])  #现在 temperature是2probs1 = F.softmax(logits, dim=-1)
print(probs1)
#%%
import torch# 创建一个概率分布，表示每个类别被选中的概率
# 这里我们有一个简单的四个类别的概率分布
prob_dist = torch.tensor([0.1, 0.45, 0.35, 0.1])# 使用 multinomial 进行抽样
# num_samples 表示要抽取的样本数量
num_samples = 5# 抽取样本，随机抽样，概率越高，抽到的概率就越高,1代表只抽取一个样本，replacement=True表示可以重复抽样
samples_index = torch.multinomial(prob_dist, 1, replacement=True)print("概率分布:", prob_dist)
print("抽取的样本索引:", samples_index)# 显示每个样本对应的概率
print("每个样本对应的概率:", prob_dist[samples_index])
#%%
def generate_text(model, start_string, max_len=1000, temperature=1.0, stream=True):input_eval = torch.Tensor([char2idx[char] for char in start_string]).to(dtype=torch.int64, device=device).reshape(1, -1) #bacth_size=1, seq_len长度是多少都可以 （1,5）hidden = Nonetext_generated = [] #用来保存生成的文本model.eval()pbar = tqdm(range(max_len)) # 进度条print(start_string, end="")# no_grad是一个上下文管理器，用于指定在其中的代码块中不需要计算梯度。在这个区域内，不会记录梯度信息，用于在生成文本时不影响模型权重。with torch.no_grad():for i in pbar:#控制进度条logits, hidden = model(input_eval, hidden=hidden)# 温度采样，较高的温度会增加预测结果的多样性，较低的温度则更加保守。#取-1的目的是只要最后，拼到原有的输入上logits = logits[0, -1, :] / temperature #logits变为1维的# using multinomial to samplingprobs = F.softmax(logits, dim=-1) #算为概率分布idx = torch.multinomial(probs, 1).item() #从概率分布中抽取一个样本,取概率较大的那些input_eval = torch.Tensor([idx]).to(dtype=torch.int64, device=device).reshape(1, -1) #把idx转为tensortext_generated.append(idx)if stream:print(idx2char[idx], end="", flush=True)return "".join([idx2char[i] for i in text_generated])# load checkpoints
model.load_state_dict(torch.load("checkpoints/text_generation/best.ckpt", weights_only=True,map_location="cpu"))
start_string = "All: " #这里就是开头，什么都可以
res = generate_text(model, start_string, max_len=1000, temperature=0.5, stream=True)

深度学习分词器char-level实战详解

一、三种分词器基本介绍 word-level：将文本按照空格或者标点分割成单词，但是词典大小太大 subword-level：词根分词（主流） char-level：将文本按照字母级别分割成token 二、charlevel代码导包&#xff1…...

编程日记 2025/8/18 10:11:16

根据开始和结束日期，获取每一天和每个月的开始和结束日期的list

获取开始日期与结束日期之间每天的list /*** 根据传入的开始时间和结束时间,筛选出所有的天的list;** param startTime* param endTime*/public Map<String, List<String>> fetchDayListBetweenStartAndEnd(String startTime, String endTime) {// 创建mapMap<…...

编程日记 2025/8/18 10:04:10

实时采集到的语音进行语音识别

要在.NET Framework 4.8中使用C#实现离线实时语音识别，可以使用开源库Vosk（支持离线ASR）配合音频处理库NAudio。步骤 1：安装依赖库 1.1. 安装NuGet包： - Install-Package NAudio（处理音频输入&#xff09…...

编程日记 2025/8/18 10:05:11

《苍穹外卖》SpringBoot后端开发项目核心知识点与常见问题整理（DAY1 to DAY3）

目录一、在本地部署并启动Nginx服务1. 解压Nginx压缩包2. 启动Nginx服务3. 验证Nginx是否启动成功： 二、导入接口文档1. 黑马程序员提供的YApi平台2. YApi Pro平台3. 推荐工具：Apifox 三、Swagger1. 常用注解1.1 Api与ApiModel1.2 ApiModelProperty与Ap…...

编程日记 2025/8/18 10:04:37

【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL 与 NewSQL

【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL 与 NewSQL 云数据库云服务器的服务云数据库和传统的分布式数据库的异同NoSQLNoSQL数据库的特点CAP定理NoSQL的特性NoSQL数据库的分类NoSQL的适用场景Nosql数据库实例-RedisRedis的优势MongoDBMongoDB的特点NewSQL…...

编程日记 2025/8/18 10:04:11

Linux入门全面整理终端 Bash、Vim 基础命令速记

Linux入门 2025 超详细全面整理 Bash、Vim 基础命令速记刚面对高级感满满的终端窗口是不是有点懵？于是乎，这份手册就是为你准备的高效学习指南！我把那些让人头大的系统设置、记不住的命令都整理成了对你更友好的格式，让你快速学…...

编程日记 2025/8/18 7:35:14

LInux基础--apache部署网站

httpd的安装 yum -y install httpdhttpd的使用启动httpd systemctl enable --now httpd使用enable --now 进行系统设置时，会将该服务设置为开机自启并且同时开启服务访问httpd 创建虚拟主机基于域名在一台主机上配置两个服务server1和server2，其…...

编程日记 2025/8/18 10:07:04

重生之我在学Vue--第12天 Vue 3 性能优化实战指南

重生之我在学Vue–第12天 Vue 3 TypeScript 类型系统深度整合文章目录重生之我在学Vue--第12天 Vue 3 TypeScript 类型系统深度整合前言一、TypeScript与Vue3的集成1.1 项目初始化配置1.2 类型配置文件解析二、类型声明实战2.1 Props类型约束2.2 Emit事件类型2.3 组合式AP…...

编程日记 2025/8/18 10:06:41

Go 语言封装 HTTP 请求的 Curl 工具包

文章目录 Go 语言封装 HTTP 请求的 Curl 工具包🏗️ 工具包结构简介核心结构体定义初始化函数 🌟 功能实现1. 设置请求头2. 构建请求3. 发送请求4. 发送 GET 请求5. 发送 POST 请求6. 发送 PUT 请求7. 发送 DELETE 请求8. 读取响应体 💡 实现…...

编程日记 2025/8/18 9:44:17

【Go】Go MongoDB 快速入门

1. MongoDB 简介 1.1 MongoDB 介绍由于我们时常需要存储一些大文本数据（比如文章内容），存储到一些关系型数据库可能不是最好的选择，这个时候就需要引入一些 NoSQL（Not Only SQL），比如 MongoD…...

编程日记 2025/8/18 5:29:15

Java --- 根据身份证号计算年龄

介绍根据身份证号计算年龄 Java代码 /*** 根据身份证号计算年龄* param birthDateStr* return*/public static int calculateAge(String birthDateStr) {try {birthDateStrbirthDateStr.substring(6,68);// 定义日期格式SimpleDateFormat sdf new SimpleDateFormat("…...

编程日记 2025/8/18 10:04:38

[LeetCode热门100题]|137，260，268，面试17.19

1、137 只出现一次数字|| 1、题目描述 137 只出现一次数字||https://leetcode.cn/problems/single-number-ii/description/ 给你一个整数数组 nums ，除某个元素仅出现一次外，其余每个元素都恰出现三次。请你找出并返回那个只出现了一次的元素。你…...

编程日记 2025/8/18 10:05:10

WPF未来展望：紧跟技术发展趋势，探索新的可能性

WPF未来展望：紧跟技术发展趋势，探索新的可能性一、前言二、WPF 与.NET 技术的融合发展2.1 拥抱.NET Core2.2 利用.NET 5 及后续版本的新特性三、WPF 在新兴技术领域的应用拓展3.1 与云计算的结合3.2 融入物联网生态四、WPF 在用户体验和设计方面的创新…...

编程日记 2025/8/17 16:43:21

maxwell

一、maxwell简介它是一款轻量级工具，主要用于实现 MySQL 到 Kafka 的数据实时同步，尤其适合对实时性要求较高的场景。 1.核心功能借助解析 MySQL 的 Binlog，能够实时捕获数据变更，并将这些变更数据发送至 Kafka。 2.缺点仅…...

编程日记 2025/8/18 10:07:19

Qt 6.6.1 中 QPixmap::grabWindow() 的用法与替代方案

一、Qt 6 中的 API 变化 ‌弃用 QPixmap::grabWindow()‌ 在 Qt 6 中，QPixmap::grabWindow() 已被迁移至 QScreen 类，需通过 QScreen::grabWindow() 实现窗口截取‌。原因： Qt 6 重构了图形模块，QPixmap 的截屏功能被整合到 QSc…...

编程日记 2025/8/18 7:16:11

【软件】免费的PDF全文翻译软件，能保留公式图表的样式

转载请注明出处：小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你，欢迎[点赞、收藏、关注]哦~ 很多PDF全文翻译软件都是收费的，而划线翻译看着又很累。这个开源的PDF全文翻译软件非常好用，并且能够保留公式、图表、目录和注…...

编程日记 2025/8/18 5:26:33

LeetCode 112. 路径总和 II java题解

https://leetcode.cn/problems/path-sum/description/ class Solution {boolean resfalse;//记录结果public boolean hasPathSum(TreeNode root, int targetSum) {if(rootnull) return res;int sum0;find(root,sum,targetSum);return res;}public void find(TreeNode root,int…...

编程日记 2025/8/18 10:05:10

如何快速定位导致服务器卡顿的进程

在 Linux 系统中，可以通过多种方式快速定位导致服务器卡顿的进程。以下是一些常用的方法： 1. 使用 top 和 htop 命令： 使用 top 或 htop 命令可以实时监视系统资源利用情况，包括 CPU 和内存占用情况，以及运行的进程列…...

编程日记 2025/8/18 10:07:06

【计算机网络】第八版和第七版的主要区别，附PDF

「《计算机网络》(... 谢希仁」，https://pan.quark.cn/s/7c2147cb48f7 1. 新增内容 - 软件定义网络（SDN）：第八版在网络层章节中新增了对SDN的简介（第4章），介绍了其基本原理和应用。 - Wi-Fi代…...

编程日记 2025/8/18 6:51:36

ubuntu20.04_vscode_snap安装方式

停止 Snap 服务运行以下命令： sudo systemctl stop snapd 彻底停止 Snap 服务停止 snapd.service 和 snapd.socket： sudo systemctl stop snapd.socket sudo systemctl stop snapd.service 禁用 Snap 服务的自动启动（可选）&…...

编程日记 2025/8/18 10:04:39

基于SpringBoot实现旅游酒店平台功能十一

一、前言介绍： 1.1 项目摘要随着社会的快速发展和人民生活水平的不断提高，旅游已经成为人们休闲娱乐的重要方式之一。人们越来越注重生活的品质和精神文化的追求，旅游需求呈现出爆发式增长。这种增长不仅体现在旅游人数的增加上&#xff0…...

编程日记 2025/8/18 10:09:14

coze ai assistant Task 2

创建一个智能体：夸夸机器人 https://www.coze.cn/store/agent/7480939060010713138?bot_idtrue 改为豆包系列-豆包角色扮演添加bingWebSearch搜索添加前： 添加后： 改为工具调用： 添加知识库使用长期记忆结合自己的需求&…...

编程日记 2025/8/18 10:04:38

Qt/C++音视频开发82-系统音量值获取和设置/音量大小/静音

一、前言在音视频开发中，音量的控制分两块，一个是控制播放器本身的音量，绝大部分场景都是需要控制这个，这个不会影响系统音量的设置。还有一种场景是需要控制系统的音量，因为播放器本身的音量是在系统音量的基础上控…...

编程日记 2025/8/18 10:09:12

C盘清理终极方案——基于Windows软连接的目录迁移实战

C盘清理终极方案——基于Windows软连接的目录迁移实战 （案例实现：.cache、.conda、AppData\docker等目录移动至D盘） 核心 # 创建目录软连接 mklink /J "C:\Users\<用户名>\AppData\Local\Docker" "D:\SoftwareCa…...

编程日记 2025/8/16 9:46:19

医疗AI测试实战：如何确保人工智能安全赋能医疗行业？

一、医疗AI测试的重要性人工智能（AI）正广泛应用于医疗行业，如疾病诊断、医学影像分析、药物研发、手术机器人和智能健康管理等领域。医疗AI技术的应用不仅提高了诊断效率，还能降低误诊率，改善患者治疗效果。然而&…...

编程日记 2025/8/17 23:44:43

在资源有限中逆势突围：从抗战智谋到寒门高考的破局智慧

目录引言一、历史中的非对称作战：从李牧到八路军的智谋传承李牧戍边：古代军事博弈中的资源重构八路军的游击战：现代战争中的智慧延续二、创业界的逆袭之道：小米与拼多多的资源重构从MVP到杠杆解社交裂变与资源错配 …...

编程日记 2025/8/18 6:55:01

在使用element-ui时表单的表头在切换页面时第一次进入页面容易是白色字体解决方法

在里面添加:header-cell-style"{ color: black }" <el-table :data"tableData" style"width: 100%" height"250" :header-cell-style"{ color: black }" ></el-table> 正确代码是 <templat…...

编程日记 2025/8/18 10:06:42

与指定数字相同的数的个数（信息学奥赛一本通-1102）

【题目描述】输出一个整数序列中与指定数字相同的数的个数。【输入】输入包含三行： 第一行为n，表示整数序列的长度(n≤100)； 第二行为n个整数，整数之间以一个空格分开； 第三行包含一个整数，为指定的数字…...

编程日记 2025/8/16 12:38:06

13. Pandas ：使用 to_excel 方法写入 Excel文件

一 to_excel 方法的相关参数用它来指定要将 DataFrame 写入哪些工作表的哪些单元格，以及是否需要包含列标题和 DataFrame 索引。如何处理特殊值（如 np.nan 和 np.inf）。 1.指定工作表和单元格 sheet_name：指定将 DataFrame 写入的…...

编程日记 2025/8/15 20:28:32

python画图文字显示不全+VScode新建jupyter文件

之前有两个jupyter文件，一个显示正确一个显示错误。已经尝试过的方法包括： 1、更改下载好的SimHei字体，或者其他支持中文的字体 2、重新创建虚拟环境 3、清楚matplotlib缓存目录 4、从anaconda的jupyter换至vscode 目前部分中文不能正常…...

编程日记 2025/8/16 12:37:37

C#中继承的核心定义‌

1. 继承的核心定义‌ ‌继承‌ 是面向对象编程（OOP）的核心特性之一，允许一个类（称为‌子类/派生类‌）基于另一个类（称为‌父类/基类‌）构建，自动获得父类的成员（字段、属…...

编程日记 2025/8/16 9:50:51

MOEFeedForward 模块

代码 class FeedForward(nn.Module):def __init__(self, config: LMConfig):super().__init__()if config.hidden_dim is None:hidden_dim 4 * config.dimhidden_dim int(2 * hidden_dim / 3)config.hidden_dim config.multiple_of * ((hidden_dim config.multiple_of - 1…...

编程日记 2025/8/16 9:46:18