当前位置：首页 > news >正文

GPT - 2 文本生成任务全流程

news 来源：原创 2025/9/7 3:05:40

数据集下载

数据预处理

import json
import pandas as pdall_data = []with open("part-00018.jsonl",encoding="utf-8") as f:for line in f.readlines():data = json.loads(line)all_data.append(data["text"])batch_size = 10000for i in range(0,len(all_data),batch_size):begin = iend = i + batch_sizedf = pd.DataFrame({"content":all_data[begin:end]})df.to_csv(f"./data/{i}.csv",index=False)

GPT-2 模型的配置

这部分代码的功能是初始化一个 GPT-2 模型的配置对象 GPT2Config，该对象将用于后续创建 GPT-2 模型实例。

方式一：在线配置

config = GPT2Config.from_pretrained("openai-community/gpt2",vocab_size=len(tokenizer),n_ctx=context_length,bos_token_id = tokenizer.bos_token_id,eos_token_id = tokenizer.eos_token_id,)

方式二：复制官网配置文件到本地

创建本地文件夹

复制官网配置文件到本地https://huggingface.co/openai-community/gpt2/blob/main/config.json

{"activation_function": "gelu_new","architectures": ["GPT2LMHeadModel"],"attn_pdrop": 0.1,"bos_token_id": 50256,"embd_pdrop": 0.1,"eos_token_id": 50256,"initializer_range": 0.02,"layer_norm_epsilon": 1e-05,"model_type": "gpt2","n_ctx": 1024,"n_embd": 768,"n_head": 12,"n_layer": 12,"n_positions": 1024,"resid_pdrop": 0.1,"summary_activation": null,"summary_first_dropout": 0.1,"summary_proj_to_labels": true,"summary_type": "cls_index","summary_use_proj": true,"task_specific_params": {"text-generation": {"do_sample": true,"max_length": 50}},"vocab_size": 50257
}

config = GPT2Config.from_pretrained("config/gpt2.config",vocab_size=len(tokenizer),n_ctx=context_length,bos_token_id = tokenizer.bos_token_id,eos_token_id = tokenizer.eos_token_id,)

模型映射、模型训练

from glob import glob
import os
from torch.utils.data import Dataset
from datasets import load_dataset
import random
from transformers import BertTokenizerFast
from transformers import GPT2Config
from transformers import GPT2LMHeadModel
from transformers import DataCollatorForLanguageModeling
from transformers import Trainer,TrainingArgumentsdef tokenize(element):outputs = tokenizer(element["content"],truncation=True,max_length=context_length,return_overflowing_tokens=True,return_length=True)input_batch = []for length,input_ids in zip(outputs["length"],outputs["input_ids"]):if length == context_length:input_batch.append(input_ids)return {"input_ids":input_batch}if __name__ == "__main__":random.seed(1002)test_rate = 0.2context_length = 128all_files = glob(pathname=os.path.join("data","*"))test_file_list = random.sample(all_files,int(len(all_files)*test_rate))train_file_list = [i for i in all_files if i not in test_file_list]raw_datasets = load_dataset("csv",data_files={"train":train_file_list,"vaild":test_file_list},cache_dir="cache_data")tokenizer = BertTokenizerFast.from_pretrained("D:/bert-base-chinese")tokenizer.add_special_tokens({"bos_token":"[begin]","eos_token":"[end]"})tokenize_datasets = raw_datasets.map(tokenize,batched=True,remove_columns=raw_datasets["train"].column_names)config = GPT2Config.from_pretrained("config/gpt2.config",vocab_size=len(tokenizer),n_ctx=context_length,bos_token_id = tokenizer.bos_token_id,eos_token_id = tokenizer.eos_token_id,)model = GPT2LMHeadModel(config)model_size = sum([ t.numel() for t in model.parameters()])print(f"model_size: {model_size/1000/1000} M")data_collator = DataCollatorForLanguageModeling(tokenizer,mlm=False)args = TrainingArguments(learning_rate=1e-5,num_train_epochs=100,per_device_train_batch_size=10,per_device_eval_batch_size=10,eval_steps=2000,logging_steps=2000,gradient_accumulation_steps=5,weight_decay=0.1,warmup_steps=1000,lr_scheduler_type="cosine",save_steps=100,output_dir="model_output",fp16=True,)trianer = Trainer(model=model,args=args,tokenizer=tokenizer,data_collator=data_collator,train_dataset=tokenize_datasets["train"],eval_dataset=tokenize_datasets["vaild"])trianer.train()

文本生成交互界面

from transformers import GPT2LMHeadModel,BertTokenizerFast
import ostokenizer = BertTokenizerFast.from_pretrained("bert-base-chinese")
model_path = os.path.join("model_output","checkpoint-100")model = GPT2LMHeadModel.from_pretrained(model_path,pad_token_id=tokenizer.pad_token_id)
model = model.to("cuda")while True:input_text = input("请输入：")input_ids = tokenizer.encode(input_text,return_tensors="pt")input_ids = input_ids.to("cuda")output = model.generate(input_ids,max_length=400,num_beams=5,repetition_penalty=1,early_stopping=True)output_text = tokenizer.decode(output[0],skip_special_tokens=True)print(f"输出：{output_text}")

GPT - 2 文本生成任务全流程

数据集下载数据预处理 import json import pandas as pdall_data []with open("part-00018.jsonl",encoding"utf-8") as f:for line in f.readlines():data json.loads(line)all_data.append(data["text"])batch_size 10000for i in ran…...

编程日记 2025/9/7 3:05:40

重返JAVA之路——面向对象

目录面向对象 1.什么是面向对象？ 2.面向对象的特点有哪些？ 3.什么是对象？ 4.什么是类？ 5.什么是构造方法? 6.构造方法的特性有哪些？ 封装 1.什么是封装？ 2.封装有哪些特点？ 数据隐…...

编程日记 2025/9/3 17:39:38

docker 安装 jenkins

拉取镜像 docker pull jenkins/jenkins:2.426.3-lts-jdk17 创建数据卷 # 创建时即设置安全权限（SGID确保组权限继承） sudo mkdir -p /var/jenkins_home sudo chmod -R 777 /var/jenkins_home 拉取镜像并运行容器 # 生产环境推荐（JDK17…...

编程日记 2025/9/3 13:03:34

sql 向Java的映射

优化建议，可以在SQL中控制它的类型在 MyBatis 中，如果返回值类型设置为 java.util.Map，默认情况下可以返回多行多列的数据...

编程日记 2025/9/2 13:54:54

探索Streamlit在测试领域的高效应用：文档读取与大模型用例生成的完美前奏

大模型用例生成前置工作之文档读取——构建你的自动化测试基础在群友的极力推荐下，开始了streamlit的学习之旅。本文将介绍如何使用Streamlit开发一个多功能文档处理工具，支持读取、预览、格式转换和导出多种测试相关文档（YAML、JSON、DOCX…...

编程日记 2025/9/6 11:27:09

Python中数值计算、表格处理和可视化的应用

1.数值计算：Numpy import numpy as np 1.1创建数组 import numpy as np arr1 np.array([[1,2,3,4,5]]) print(arr1) print(type(arr1)) print("数组形状",arr1.shape) arr2 np.array([[1,2,3],[2,3,4]]) print(arr2) print(type(arr1)) print("…...

编程日记 2025/8/31 16:35:23

【数据可视化艺术·实战篇】视频AI+人流可视化：如何让数据“动”起来？

景区游玩，密密麻麻全是人，想找个拍照的好位置都难；上下班高峰挤地铁，被汹涌的人潮裹挟着，只能被动 “随波逐流”。这样的场景，相信很多人都再熟悉不过。其实，这些看似杂乱无章的人群流动现象&am…...

编程日记 2025/9/3 3:55:04

038-flatbuffers

flatbuffers FlatBuffers技术调研报告一、核心原理与优势 FlatBuffers通过内存直接访问技术实现零拷贝序列化，其核心优势如下： 内存布局：数据以连续二进制块存储，包含VTable（虚拟表）和Data Object&…...

编程日记 2025/9/4 13:19:44

探索 Go 与 Python：性能、适用场景与开发效率对比

1 性能对比：执行速度与资源占用 1.1 Go 的性能优势 Go 语言被设计为具有高效的执行速度和低资源占用。它编译后生成的是机器码，能够直接在硬件上运行，避免了 Python 解释执行的开销。以下是一个用 Go 实现的简单循环计算代码： …...

编程日记 2025/9/5 18:36:19

Pinia最基本用法

1. 定义 Store 首先，定义一个 Pinia Store，使用组合式 API 风格和 ref 来管理状态。示例：stores/ids.js import { defineStore } from pinia; import { ref } from vue;export const useIdsStore defineStore(ids, () > {const ids …...

编程日记 2025/9/5 7:39:20

MySQL中的UNION和UNION ALL【简单易懂】

一、前言 UNION 和 UNION ALL 是 SQL 中用于合并多个查询结果集的关键字。二、核心作用两者均用于将多个 SELECT 语句的结果集纵向合并（列结构需相同），但行为存在关键差异： 三、使用场景对比需要去重时：例如合并…...

编程日记 2025/9/3 20:34:00

ConcurrentHashMap 源码分析

摘要介绍线程安全集合类 ConcurrentHashMap 源码，包括扩容，协助扩容，红黑树节点读写线程同步，插入元素后累加键值对数量操作原子性实现。 1 成员变量及其对应的数据结构底层由数组红黑树链表实现volatile long baseCount 和 v…...

编程日记 2025/9/6 23:01:29

一种基于学习的多尺度方法及其在非弹性碰撞问题中的应用

A learning-based multiscale method and its application to inelastic impact problems 摘要： 我们在工程应用中观察和利用的材料宏观特性，源于电子、原子、缺陷、域等多尺度物理机制间复杂的相互作用。多尺度建模旨在通过利用固有的层次化结构来理解…...

编程日记 2025/9/4 0:23:19

【DE2-115】Verilog实现DDS+Quartus仿真波形

【DE2-115】Verilog实现DDSQuartus仿真波形一、任务要求二、实现步骤2.1 相位累加器2.2 波形存储器ROM2.2.1 方波模块2.2.2 正弦波形存储器 2.3 3锁相环倍频电路2.4 顶层电路设计三、设计实现四、实验总结一、任务要求采用数字频率合成（Direct Digital Frequen…...

编程日记 2025/9/4 19:59:15

StickyNotes，简单便签超实用

日常工作中是不是经常需要记点东西，但又不想用太复杂的工具？今天给你推荐一款超简单的桌面便签软件——StickyNotes。下面是动图： 简单到极致的便签工具 StickyNotes真的是简单到不能再简单了。打开软件，直接输入你的便签内容&a…...

编程日记 2025/8/29 10:11:43

深度探索 C 语言：指针与内存管理的精妙艺术

C 语言作为一门历史悠久且功能强大的编程语言，以其高效的性能和灵活的底层控制能力，在计算机科学领域占据着举足轻重的地位。指针和内存管理是 C 语言的核心特性，也是其最具挑战性和魅力的部分。深入理解指针与内存管理，不仅能够…...

编程日记 2025/8/28 0:38:41

【C++】深拷贝与浅拷贝

重开也不是不可能 ~.~ 浅拷贝 #include <iostream> #include <cstring>class ShallowCopyExample { public:int m_nValue;int* m_pData;// 构造函数，初始化指针成员ShallowCopyExample(int value) : m_nValue(value) {m_pData new int(0);*m_pData va…...

编程日记 2025/9/4 3:09:23

【3】k8s集群管理系列--包应用管理器helm之chart资源打包并推送到harbor镜像仓库

一、chart资源打包 helm package ./web-chart # 当前目录会生成一个tgz的压缩文件二、安装help push插件（用于推送前面打包的文件，到镜像仓库） .1 下载help-push二进制文件 wget https://github.com/chartmuseum/helm-push/releases/down…...

编程日记 2025/9/5 4:01:20

React与Vue：选择哪个框架入门？

React与Vue：选择哪个框架入门？ 作为前端开发者，我在React和Vue两个框架间切换多次，常被新手问到应该从哪个入手。不同于网上那些详尽的技术比较，这里我想从实用角度给你一个简明对比。两大框架核心差异特性ReactV…...

编程日记 2025/8/29 20:52:21

pycharm已有python3.7，如何新增Run Configurations中的Python interpreter为python 3.9

在 PyCharm 中，如果你已经安装了 Python 3.9，并且希望在 Run Configurations 中新增一个 Python 3.9 的解释器，可以按照以下步骤操作： 步骤 1：打开 PyCharm 设置点击 PyCharm 左上角的 File 菜单。选择 Settings&am…...

编程日记 2025/9/5 3:22:57

STL之迭代器（iterator）

迭代器的基本概念迭代器(iterator)模式又称为游标(Cursor)模式，用于提供一种方法顺序访问一个聚合对象中各个元素, 而又不需暴露该对象的内部表示。或者这样说可能更容易理解：Iterator模式是运用于聚合对象的一种模式，通过运用该模式&#…...

编程日记 2025/9/2 12:58:19

Mysql5.7配置文件

Mysql5.7配置文件初始化数据库之前修改my.cnf----配置持久化键(persistence key) 初始化数据库之前修改my.cnf----配置持久化键(persistence key) 使用utf8mb4而不是utf8： https://blog.csdn.net/omaidb/article/details/106481406 https://blog.csdn.net/fdipzo…...

编程日记 2025/9/6 9:36:00

HarmonyOS-ArkUI V2装饰器: @Provider和@Consumer装饰器：跨组件层级双向同步

作用我们在之前学习的那些控件中，各有特点，也各有缺陷，至今没有痛痛快快的出现过真正能跨组件的双向绑定的装饰器。比如 @Local装饰器，不能跨组件@Param装饰器呢，能跨组件传递，但是仅仅就是下一层组件接收参数。另外，它是单向传递，不可被重新赋值。如果您非要改值则…...

编程日记 2025/8/29 12:00:43

【HarmonyOS 5】敏感信息本地存储详解

【HarmonyOS 5】敏感信息本地存储详解前言鸿蒙其实自身已经通过多层次的安全机制，确保用户敏感信息本地存储安全。不过再此基础上，用户敏感信息一般三方应用还需要再进行加密存储。本文章会从鸿蒙自身的安全机制进行展开，最后再说明本地…...

编程日记 2025/9/3 0:48:17

0x03.Redis 通常应用于哪些场景？

回答重点 1）缓存(Cache)： Redis 最常用的场景是作为缓存层，以减少数据库的负载，提高数据读取速度。例如，常用的用户会话数据和页面渲染结果可以存储在 Redis 中。2）分布式锁(Distributed Lock)： Redis 可以用作分布式锁的实现，确保在分布式系统中资源的安全访问，避免…...

编程日记 2025/9/6 8:01:50

Keil创建自定义的STM32标准库工程

注：以下工程创建将以STM32F103ZET6为例 1 下载需要的资料包 1.1 下载 Keil 的 STM32F103 芯片支持包 1.1.1 手动下载安装包 Keil官网：https://www.keil.com/ （1）进入官网，点击 Download。 （2&#xf…...

编程日记 2025/9/2 1:07:40

React(1)基础入门

React(1)基础入门 Author: Once Day Date: 2025年4月10日一位热衷于Linux学习和开发的菜鸟，试图谱写一场冒险之旅，也许终点只是一场白日梦… 漫漫长路，有人对你微笑过嘛… 全系列文章可参考专栏: FullStack开发_Once-Day的博客-CSDN博客 …...

编程日记 2025/9/2 8:56:12

Mysql8配置文件

Mysql8配置文件修改my.cnf----配置持久化键(persistence key)配置表名不区分大小写修改my.cnf----配置持久化键(persistence key) MySQL8初始化数据库之前配置好这些变量值，初始化数据库之后可能无法修改这个值。 # 服务端配置 [mysqld] ######## 数据目录和基…...

编程日记 2025/9/4 17:17:27

c/c++ 使用libgeotiff读取全球高程数据ETOPO

#include <geotiff.h> #include <geotiffio.h> #include <tiffio.h> #include <iostream> #include <xtiffio.h> void MyTIFFErrorHandler(const char* module, const char* fmt, va_list args) {// 格式化错误消息char buffer[1024];vsnprintf(…...

编程日记 2025/9/6 14:19:11

Spring Boot集成Nacos

1. 添加依赖在pom.xml文件中添加Nacos相关依赖。根据Spring Boot版本选择合适的依赖版本： Spring Boot 3.2.x版本 <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-nacos-config</artif…...

编程日记 2025/9/4 7:04:27

CAP理论与 BASE理论

一、分布式系统存在的问题 1.分布式系统 20世纪90年代，随着互联网应用的快速扩张，传统单机系统难以支撑高并发、跨地域的数据处理需求。分布式系统（Distributed System） 逐渐成为主流架构，分布式系统是由多台计算机&…...

编程日记 2025/9/1 16:03:21

C++(21)—类和对象(下) ⑥匿名对象

文章目录一、匿名对象的定义与基本特性二、匿名对象与有名对象的对比1. 有名对象2. 匿名对象三、匿名对象的构造与析构时机1. 构造与析构规则2. 示例分析四、匿名对象的适用场景1. 临时调用对象方法2. 作为函数参数五、总结一、匿名对象的定义与基本特性匿名对象&#x…...

编程日记 2025/9/3 4:31:53

Go环境变量配置

Go环境变量配置一、下载进入The Go Programming Language 点击下载对应操作系统的安装成功界面如下图,默认安装到: usr/local/go/ 安装完成之后，在终端运行 go version，如果显示类似下面的信息，表明安装成功（备注:darwin(其实…...

编程日记 2025/8/27 1:22:04

AI推理强，思维模型也有功劳【58】二八定律思维

giszz的理解：二八定律，我们说的和听的都比较多。20%的关键，是事物本质，做人不要贪心，也不要胡子眉毛一把抓。当然，也不要轻视那80%。一、定义二八定律思维模型，也被称为帕累托法则&#xff0…...

编程日记 2025/9/4 19:25:45

文件上传靶场

文件上传靶场项目结构 upload-lab/ ├── Dockerfile └── www├── index.php└── upload└── flag.txt执行命令流程（逐行执行） 创建目录结构 # 创建目录结构 mkdir upload-lab;cd upload-lab mkdir -p www/upload# 创建flag文件 echo &qu…...

编程日记 2025/9/5 12:56:19

RV1106 OCR 识别算法

一题记目标是在某款 RV1106 低算力小板下跑通OCR文字识别算法，做个简单的应用，RK 官方模型库rk_model_zoo 有PP-OCR 的例子，但在 rv1106 上尚未支持。于是便打算折腾一吧。二方案甄选参考国外某大佬的比较： 对比了几种方案…...

编程日记 2025/9/5 8:55:25

Linux实现翻译以及群通信功能

1.翻译功能实现 UdpServer.hpp文件构造函数接收一个端口号和一个回调函数，回调函数是传入一个执行方法，比如翻译方法。 UdpServer(uint16_t port,func_t func):_sockfd(defaultfd),_port(port),_isrunning(false),_func(func){}Init函数首先创建了…...

编程日记 2025/9/6 16:33:23

[MRCTF2020]ezpop wp

本题考点:php反序列化的pop链首先来了解一下pop链是什么,它类似于多米诺骨牌一环套一环,要调用这个成员方法然后去找能调用这个方法的魔术方法,最后一环接一环,完成一个链子,最终形成payload。那么来了解一下这些魔术方法 __construct() //类的构造函数&#xff0…...

编程日记 2025/9/6 13:29:55

机器学习入门之Sklearn基本操作

、 Sklearn全称:Scipy-toolkit Learn是一个基于scipy实现的的开源机器学习库。它提供了大量的算法和工具，用于数据挖掘和数据分析，包括分类、回归、聚类等多种任务。本文我将带你了解并入门Sklearn在机器学习中的基本用法。获取方式 pip install sc…...

编程日记 2025/9/3 7:08:28

（二十二）安卓开发中的数据存储之SQLite简单使用

在Android开发中，SQLite是一种非常常用的数据库存储方式。它轻量、简单，非常适合移动设备上的数据管理。本文将通过通俗易懂的语言，结合代码示例和具体场景，详细讲解SQLite在Android中的使用。 1. 什么是SQLite? SQLite是一个开…...

编程日记 2025/9/5 7:41:34

docker compose搭建博客wordpress

一、前言 docker安装等入门知识见我之前的这篇文章 https://blog.csdn.net/m0_73118788/article/details/146986119?fromshareblogdetail&sharetypeblogdetail&sharerId146986119&sharereferPC&sharesourcem0_73118788&sharefromfrom_link 1.1 docker co…...

编程日记 2025/9/7 1:23:34

信息学奥赛一本通 1498：Roadblocks | 洛谷 P2865 [USACO06NOV] Roadblocks G

【题目链接】 ybt 1498：Roadblocks 洛谷 P2865 [USACO06NOV] Roadblocks G 【题目考点】 1. 图论：严格次短路径严格次短路的路径长度必须大于最短路的路径长度。非严格次短路的路径长度大于等于最短路的路径长度。【解题思路】每个交叉路口是一…...

编程日记 2025/9/3 11:20:31

学习笔记—C++—类和对象（三）

目录类和对象再探构造函数类型转换隐式类型转换显式类型转换 C语言风格类型转换 C风格类型转换 static_cast dynamic_cast const_cast reinterpret_cast static成员友元友元函数友元类友元成员函数内部类匿名对象匿名对象的使用场景：…...

编程日记 2025/9/6 20:08:59

句句翻译。

对这些单词整理，格式为：“overall /əʊvərɔːl/ adj.全面的,综合的,总体的adv.全部,总计,一般来说,大致上,总体上n.外套,罩衣,工装连衣裤,工装服 ” 4,4 A review published in January in Experimental Dermatology found that ceramide made sk…...

编程日记 2025/9/4 1:19:25

LeetCode 2999.统计强大整数的数目：上下界数位DP

【LetMeFly】2999.统计强大整数的数目：上下界数位DP 力扣题目链接：https://leetcode.cn/problems/count-the-number-of-powerful-integers/ 给你三个整数 start ，finish 和 limit 。同时给你一个下标从 0 开始的字符串 s ，表示一…...

编程日记 2025/9/3 8:26:20

具身导航中的视觉语言注意力蒸馏！Vi-LAD：实现动态环境中的社会意识机器人导航

作者：Mohamed Elnoor 1 ^{1} 1, Kasun Weerakoon 1 ^{1} 1, Gershom Seneviratne 1 ^{1} 1, Jing Liang 2 ^{2} 2, Vignesh Rajagopal 3 ^{3} 3, and Dinesh Manocha 1 , 2 ^{1,2} 1,2单位： 1 ^{1} 1马里兰大学帕克分校电气与计算机工程系， 2…...

编程日记 2025/9/3 4:09:58