trl的安装与单GPU多GPU测试
文章目录
- 0 相关资料
- 1 源码安装
- 2 Qwen2.5-0.5B-Instruct 模型下载
- 3 训练demo
- 4 在多个 GPU/节点上进行训练
- 总结
0 相关资料
https://github.com/huggingface/trl
https://blog.csdn.net/weixin_42486623/article/details/134326187
TRL 是一个先进的库,专为训练后基础模型而设计,采用了监督微调 (SFT)、近端策略优化 (PPO) 和直接偏好优化 (DPO) 等先进技术。TRL 建立在 🤗 Transformers 生态系统之上,支持多种模型架构和模态,并可在各种硬件配置上进行扩展。
b站视频:https://www.bilibili.com/video/BV18ndfYfEcz/
PyTorch / 2.3.0 / 3.12(ubuntu22.04) / 12.1
1 源码安装
source /etc/network_turbo
git clone https://github.com/huggingface/trl.git
cd trl/
pip install -e .
source /etc/network_turbo
pip install trl transformers datasets accelerate
2 Qwen2.5-0.5B-Instruct 模型下载
https://www.modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct
source /etc/network_turbo
pip install modelscope
采用SDK方式下载
from modelscope import snapshot_download# 指定模型的下载路径
cache_dir = '/root/'
# 调用 snapshot_download 函数下载模型
model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct', cache_dir=cache_dir)print(f"模型已下载到: {model_dir}")
3 训练demo
demo.py
执行脚本前,输入:
source /etc/network_turbo
from trl import SFTTrainer
from datasets import load_datasetdataset = load_dataset("trl-lib/Capybara", split="train")trainer = SFTTrainer(model="/root/Qwen/Qwen2.5-0.5B-Instruct",train_dataset=dataset,
)
trainer.train()
00:15<1:57:58,
4 在多个 GPU/节点上进行训练
执行脚本前,输入:
source /etc/network_turbo
accelerate launch --config_file=examples/accelerate_configs/multi_gpu.yaml --num_processes 2 demo.py --all_arguments_of_the_script
总结
一块L20 GPU 48G,需要2小时
两块L20 GPU 48G,需要0.5小时
速度提升明显
相关文章:
trl的安装与单GPU多GPU测试
文章目录 0 相关资料1 源码安装2 Qwen2.5-0.5B-Instruct 模型下载3 训练demo4 在多个 GPU/节点上进行训练总结 0 相关资料 https://github.com/huggingface/trl https://blog.csdn.net/weixin_42486623/article/details/134326187 TRL 是一个先进的库,专为训练后基…...
Java项目之基于ssm的学校小卖部收银系统(源码+文档)
项目简介 学校小卖部收银系统实现了以下功能: 学校小卖部收银系统的主要使用者分为: 管理员;管理员使用本系统涉到的功能主要有:主页,个人中心,用户管理,员工管理,商品分类管理&am…...
ES DSL 常用修改语句
字段值替换修改 修改sql update zyzkwjj set dhreplace(dh,"WS","WSS") where dh like %WS% update zyzkwjj set dh replace(dh, WS, DZ),ztm replace(ztm, WS, DZ),zrz replace(zrz, WS, DZ) where dh like %WS% or ztm like %WS% or zrz like %WS%…...
数据结构*集合框架顺序表-ArrayList
集合框架 常见的集合框架 什么是顺序表 顺序表是一种线性表数据结构,它借助一组连续的存储单元来依次存储线性表中的数据元素。一般情况下采用数组存储。 在数组上完成数据的增删查改。 自定义简易版的顺序表 代码展示: public interface IArray…...
(二)Graspnet在mujoco的仿真复现(操作记录)
目录 《复现的项目来源》 一、创建虚拟环境 二、下载manipulator_grasp项目 三、配置环境 1、基于graspnet-baseline项目进行开发 (1)下载 graspnet-baseline项目 (2)修改graspnet-baseline的requirements.txt,…...
黑马商城项目(一)MybatisPlus
一、快速入门 入门案例: 常见注解: 常见配置: 条件构造器(wrapper): 案例: Testvoid testUpdateByWrapper(){List<Long> ids List.of(1L,2L,3L);UpdateWrapper<User> userUpdateWrapper new UpdateWrapp…...
Linux系统编程 day2
系统调用 由操作系统实现并提供给外部应用程序的编程接口(API)。是应用程序同系统之间数据交换的桥梁。 文件IO 函数 open/close函数 头文件 #include<fcntl.h> #include<unistd.h>int open(const char*pathname , int flags) int open(const char*pathname , …...
告别繁琐,拥抱简洁:初识 Pytest 与环境搭建 (Pytest系列之一)
在 Python 自动化测试领域,Pytest以其简洁、灵活和强大的特性,越来越受到广大测试工程师和开发者的青睐。如果你还在为繁琐的测试框架而苦恼,或者希望提升你的 Python 测试效率,那么 Pytest 绝对值得你深入了解和使用。 本文将带…...
浏览器运行Pytorch无法启用显卡
注意 我启用高性能之后,结果蓝屏了。无语Thinkpad T14p!!! 仅供参考。 问题与方案 在浏览器里面用Jupyter编写python程序,进行网络模型训练。 里面导入了PyTorch,但是并没有启用显卡执行: 也…...
天元证券|8家汽车零部件上市公司一季度业绩预喜
近日,中国汽车工业协会发布的数据显示,今年一季度,我国汽车产量为756.1万辆,同比增长14.5%;汽车销量为747万辆,同比增长11.2%。 受益于前三个月汽车产、销量同比双增,上游产业链公司交出了一份可…...
C语言学习之sizeof函数和strlen函数
经过我们之前的学习,已经接触过很多次sizeof函数和strlen函数了,应用他们来求解数组大小等等。但是实际应用中两者的差别还是很大的,接下来我们就来了解一下吧。 sizeof函数 sizeof函数计算的是变量所占内存空间的大小的,单位是字…...
从 “经验养生” 到 “数据养生”:智慧养老如何终结 “伪科学”?
在养老养生领域,长期以来 “经验养生” 占据主导地位,各种未经科学验证的说法和做法流传甚广,其中不乏 “伪科学” 内容,给老年人的健康和生活带来诸多误导。 随着智慧养老的兴起,“数据养生” 模式逐渐崭露头角&…...
什么是跨域问题以及其解决方案
一、什么是跨域? 1.1. 什么是同源策略?1.2. 同源策略限制以下几种行为 二、常见的跨域场景三、9种跨域解决方案 1. JSONP跨域 1.1. 原生JS实现1.2. jquery Ajax实现1.3. Vue axios实现 2. CORS 跨域资源共享 (前端不需要做任何改变࿰…...
Go之Slice和数组:深入理解底层设计与最佳实践
在Go语言中,数组(Array)和切片(Slice)是两种看似相似却本质不同的数据结构。本文将深入剖析它们的底层实现机制,并结合实际代码示例,帮助开发者掌握核心差异和使用场景。 一、基础概念ÿ…...
快速部署大模型 Openwebui + Ollama + deepSeek-R1模型
背景 本文主要快速部署一个带有web可交互界面的大模型的应用,主要用于开发测试节点,其中涉及到的三个组件为 open-webui Ollama deepSeek开放平台 首先 Ollama 是一个开源的本地化大模型部署工具,提供与OpenAI兼容的Api接口,可以快速的运…...
RF connect SDK 修改蓝牙address的方法
目录 概述 1 静态设置蓝牙地址(编译时配置) 1.1 通过 prj.conf 文件设置 1.2 通过 overlay 文件设置 2 动态修改蓝牙地址(运行时修改) 2.1 使用 bt_addr_le_t 结构 2.2 使用 bt_set_id_addr(适用于 Public Add…...
MuJoCo(Multi-Joint Dynamics with Contact)机器人仿真器存在的问题
MuJoCo物理引擎计算接触力的核心思路,是通过数学优化的方式同时满足多个物理约束,而不是简单地为每个碰撞点单独计算作用力。它的工作流程可以理解为几个阶段的紧密配合。首先,仿真器会快速检测所有可能发生接触的物体表面,筛选出…...
IDEA远程Debug调试
最近开发一个功能,因为环境问题,本地无法正常将多个微服务都启动成功。 另外接手了一个新活, 逻辑比较复杂,需要去研究一下测试一下原来的功能逻辑。方便找到新任务功能点的切入点。这才了解到Idea远程debug调试的功能。 本文章…...
爱普生有源晶振SG2016VHN在网络服务器中的应用
在数字化浪潮席卷全球的当下,网络服务器作为数据存储、处理与传输的核心枢纽,其性能的稳定与高效直接关系到整个网络生态的正常运转。从企业内部的数据管理,到互联网服务提供商的大规模数据运算,网络服务器需要应对海量数据的高速…...
【差分隐私相关概念】瑞丽差分隐私(RDP)命题2
分步解析与答案 1. c-稳定变换的定义 c-稳定变换是一种将群体数据集(如数据库集合)的相邻性映射到个体数据集(如单条记录变化)的变换。具体来说,若变换 g : D ′ → D g: \mathcal{D} \to \mathcal{D} g:D′→D 是 …...
大前端基础学习
一、cs架构和bs架构 c:客户端, b:浏览器(无需安装,无需更新,可跨平台)√ s:server服务端,帮我们保 存信息,传递信息 二、 altshift向下键向下复制一行 …...
Spring Batch 专题系列(四):配置与调度 Spring Batch 作业
1. 引言 在上一篇文章中,我们详细探讨了 Spring Batch 的核心组件(Job、Step、Chunk、ItemReader、ItemProcessor、ItemWriter),并通过示例展示了它们的协作方式。掌握了这些组件后,接下来需要了解如何灵活配置 Spring Batch 作业,并通过调度机制控制作业的执行时机。本…...
Android 项目配置文件解释
Android 项目配置文件解释 目录 Android 项目配置文件解释1. `plugins` 块2. `android` 块3. `dependencies` 块为什么需要 JDK 和 Kotlin1. plugins 块 plugins {id com.android.applicationid org.jetbrains.kotlin.android }id com.android.application:应用 Android 应用…...
uniapp 自定义tabbar
v3 写法 <template><view class"" v-if"Data.imgurl"><view class"tabbars" ref"tabbars" id"tabbars"><view class"flex jsa"><view class"tabbarc_li" click"go(/p…...
C++高级2 智能指针
智能指针介绍 裸指针 int * p new int(10); *p 30; delete p; 必须要手动释放 智能指针 保证能做到资源的自动释放,利用栈上的对象出作用域自动析构的特征,来做到资源的自动释放的 实现一个简单的智能指针 class Cptr { public:Cptr(T* ptr …...
【FPGA】——DDS信号发生器设计
目录 一 、IP核的使用 (1)RAM IP核 (2)FIFO IP核 二、DDS信号发生器设计 (1)代码 (2)仿真波形 一 、IP核的使用 IP核:ASIC或FPGA中预先设计好具有某种功能的电路模块,参数可修改…...
mysql按条件三表并联查询
下面为你呈现一个 MySQL 按条件三表并联查询的示例。假定有三个表:students、courses 和 enrollments,它们的结构和关联如下: students 表:包含学生的基本信息,有 student_id 和 student_name 等字段。courses 表&…...
centos 7 docker创建的postgres数据库状态检查
一 、打开finalshell 连接主机 二、检查docker状态,以下信息表示数据库准备好连接了 注意:当finalshell可以访问主机,但没有准备信息时,重启centos系统试试 docker logs postgres 三、如果是传统安装 基于 systemd 的系统(如 CentOS 7 及以上、Ubuntu 16.04 及以…...
基于EasyX库开发的球球大作战游戏
目录 球球大作战 一、开发环境 二、流程图预览 三、代码逻辑 1、初始化时间 2、设置开始界面大小 3、设置开始界面 4、让玩家选择速度 5、设置玩家小球、人机小球、食物的属性 6、一次性把图绘制到界面里 7、进入死循环 8、移动玩家小球 9、移动人机 10、食物刷新…...
ES和MySQL概念对比
基本概念 ES和MySQL都属于数据库,不过各有各的特性,大致使用方法与MySQL类似并无区别。 MySQL:擅长事务持有ACID的特性,确保数据的一致性和安全。 ES:持有倒排索引,适合海量数据搜索和分析。 ES和MySQL如何…...
Kotlin 与 Jetpack Compose 参数设计完全指南
作为 Kotlin 和 Jetpack Compose 开发者,合理的参数设计能显著提升代码的可读性和易用性。本文将系统整理各类参数规则,帮助您编写更优雅的 API。 一、基础参数规则 1. 方法参数 // 基础定义 fun 方法名(必需参数: 类型, 可选参数: 类型 默认值): 返…...
dea如何使用git
在 IntelliJ IDEA 中使用 Git 的详细步骤如下,分为配置、基础操作和高级功能,适合新手快速上手: 一、配置 Git 安装 Git 下载并安装 Git,安装时勾选“Add to PATH”。验证安装:终端输入 git --version 显示版本…...
git -- 版本控制介绍(分布式系统),git介绍(对待数据的方式,本地执行,保证完整性,只添加数据,git文件/项目的三种状态,基本的工作流程)
目录 版本控制 介绍 分布式版本控制系统 git 介绍 与多个远程仓库协作 对待数据的方式 本地执行操作 保证完整性 只添加数据 三种状态 工作区 暂存区 Git 目录 基本的git工作流程 版本控制 介绍 一种记录一个或多个文件内容变化的系统,它可以让你在未来…...
嵌入式软件OTA升级,有哪几种Flash划分方式?
第一次接触嵌入式软件OTA升级的时候,我整个人也是懵的。Flash划分?什么鬼?不是直接把新程序烧进去就完事了吗? 结果一上手才发现,这玩意没那么简单,尤其是Flash怎么分,如果Flash划分没弄好&…...
游戏引擎学习第226天
引言,计划 我们目前的目标是开始构建“元游戏”结构。所谓元游戏,指的是不直接属于核心玩法本身,但又是游戏体验不可或缺的一部分,比如主菜单、标题画面、存档选择、选项设置、过场动画等。我们正在慢慢将这些系统结构搭建起来。…...
通过python实现bilibili缓存视频转为mp4格式
需要提前下好ffmpeg import os import fnmatch import subprocess Bilibili缓存的视频,*280.m4s结尾的是音频文件,*050.m4s结尾的是视频,删除16进制下前9个0,即为正常音/视频 使用os.walk模块,遍历每一个目录…...
Windows 图形显示驱动开发-WDDM 1.2功能—无显示器系统支持
一、架构设计与启动流程 1.1无显示器系统启动与全流程 graph TDA[UEFI固件] -->|FADT.VGA_NOT_PRESENT1| B[Windows Boot Manager]B -->|加载winload.efi| C[内核初始化]C -->|检测显示设备| D{存在GPU?}D -->|是| E[加载WDDM驱动]D -->|否| F[激活MSBDD虚拟…...
低代码 Web 组态
低代码配置式 Web 组态是一种用于创建 Web 应用程序界面的技术,它允许用户通过图形化界面和少量的代码或无需编写大量代码来配置和定制 Web 页面的布局、外观和交互功能。 一、特点 1、低代码或无代码开发:大大降低了开发门槛,无需专业的编程…...
解决7穴连接器的信号完整性问题
在汽车发动机的系统设计中,信号传输是不可或缺的。在信号传输中起着重要作用的一个关键组件是 7 穴连接器,它提供许多重要功能。 但是,这些连接器可能会遇到一些制造商需要解决的问题,知道如何解决 7 腔连接器中的信号完整性问题…...
GDScript快速入门(适合有其它编程语言基础)
GDScript快速入门(适合有其它编程语言基础) 从零开始学 GDScript Godot 是一款开源、跨平台的游戏引擎,因其轻量、易用和强大的功能而受到广大开发者的喜爱。在 Godot 中,GDScript 是其专为游戏开发设计的脚本语言,具…...
WEB安全--蓝队日志--RCE数据包分析
一、分析数据包内容 攻击者通过URL请求POST传参的方式试图绕过IPS测试RCE漏洞的利用 URL请求中的内容进行urlcode解码后是这样的: http://资产IP/hello.world?-d allow_url_include1 -d auto_prepend_filephp://input 1. -d allow_url_include1: 使…...
springboot项目添加定时任务,用sftp推送zip包到目标服务器
用sftp推送zip包到目标服务器 任务类里面,主要功能是,定时采集三张表的数据,并把数据转换成csv,三份csv压缩成一个加密的zip包,通过sftp推送到指定的目录下 配置类 Data Configuration ConfigurationProperties(pre…...
Mobaxterm 突破 14个 session 限制
mobaxterm 可以说非常好用,但是免费版对会话有限制,对于有很多虚拟机会话需要存储的我来说确实太少了。 当Xterm会话数量到14个时,发现新增的会话没有保存下来,在左侧菜单无法新增保存会话session。 超过限制时,提示…...
体系结构论文(七十一):Quantifying the Impact of Data Encoding on DNN Fault Tolerance
Quantifying the Impact of Data Encoding on DNN Fault Tolerance 研究动机 深度神经网络(DNN)在硬件运行时可能遇到位翻转(bit-flip)错误,特别是在能效和面积敏感的平台上(如边缘设备、移动端࿰…...
学习笔记十一——零基础搞懂 Rust 函数式编程
🧠 零基础搞懂 Rust 函数式编程:到底什么是 “函数式”? Rust 是一门多范式语言,既可以像 C/Java 那样写“命令式代码”,也支持“函数式编程”。但很多刚入门的小伙伴可能会有这些疑问: 函数不就是函数吗&…...
Spark-SQL2
利用IDEA开发Spark-SQL 自定义函数 UDF: UDAF(自定义聚合函数) 强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),countDistinct(),avg(),max(),min()。…...
python实战案例:玩具销售数据分析
原创 IT小本本 IT小本本 2025年04月12日 22:45 北京 本文将通过一个玩具销售数据的分析案例,展示如何利用 Python 和数据可视化工具从原始数据中提取有价值的商业洞察。将从数据加载、预处理到可视化分析,逐步揭示玩具销售的规律和趋势。 数据准备与加…...
模拟浏览器指纹:生成与定制特定属性
在现代网络环境中,浏览器指纹是一种强大的标识技术,用于区分不同的浏览器实例。通过收集浏览器的各种属性(如用户代理、Canvas 指纹、WebGL 特性等),可以生成一个独特的指纹,用于跟踪用户行为或防止欺诈。本…...
vue+vite 减缓首屏加载压力和性能优化
vuevite 减缓首屏加载压力和性能优化 1、预加载项目必需的组件2、模块加载优化3、HMR 热更新优化4 、环境配置优化5、代码模式优化6、高级优化技巧7、架构级优化打包压缩配置 在vuevite构建的工程里面,性能优化分为开发环境和打包后的生产环境,作为开发首…...
狂神SQL学习笔记十三:Delete 和 Truncate 详解
1、删除 保留表的结构不变,清空表的数据 truncate重新设置 自增列 计数器会归零,如果用delete删除,则自增不会变,重新插入数据时自增会从原来的地方开始...