当前位置: 首页 > news >正文

从头训练小模型: 2 监督微调SFT

简介

从头训练小模型是我个人对大语言模型(LLM)学习中的重要部分。

通过对一个小规模模型的最小化复现实践,我不仅能够深入理解模型训练的基本流程,还可以系统地学习其中的核心原理和实际运行机制。这种实践性的学习方法让我能够直观地感受模型训练的每个环节,同时掌握相关的技术细节和实现方式。

目前的工作中,确实存在某些任务是有这种小模型的需求, 也在学习过程中理解运作逻辑, 力求用最小的资源消耗情况下,实现某些子任务的最小模型实现.

ALL in AI

代码已经上传 https://github.com/godzeo/miniGPT

SFT 有监督微调(Supervised Fine-Tuning):

为什么要这一步?

因为经过预训练之后,LLM已掌握了大量知识,但此时它只是一个无情的词语接龙机,还不能与人对话。

我们要它就不再盲目接龙,而是能够理解这是一段完整的对话。

那么我们就要这个指令微调的过程,让有了基础知识的学生, 会做题, 而不是一直背课文,成语结论, 需要他会根据学会根据提问, 回答问题做题. 理解什么是一问一答题.

训练命令:

torchrun --nproc_per_node=4 scripts/train_sft.py \--model_path outputs/pretrain/final \--tokenizer_path mistralai_tokenizer \--output_dir outputs/sft \--data_file /root/autodl-tmp/data/sft_mini_512.jsonl \--batch_size 16 \--gradient_accumulation_steps 8 \--num_epochs 1

数据集

https://www.modelscope.cn/datasets/deepctrl/deepctrl-sft-data

主要是对 匠数大模型SFT数据集 数据清洗, 只保留了长度短一点的内容,超级精简之后的121w 的精简数据训练的

{"conversations": 
[{"role": "user", "content": "写一篇关于人工智能发展历史的文章。"},{"role": "assistant", "content": "好的,我将写一篇关于人工智能发展历史的文章。人工智能源于20世纪50年代的探索,经历了多次热潮和降温期。早期主要以符号推理为主,而后引入了机器学习和深度学习等技术,目前已广泛应用于图像识别、自然语言处理、游戏、机器人等领域。"}, {"role": "user", "content": "提取一下人工智能在游戏领域的应用。"}, {"role": "assistant", "content": "在游戏领域,人工智能主要应用于游戏智能代理、游戏设计辅助等。智能代理可以使玩家在游戏中享受更好的游戏体验,同时也可以提高游戏难度,增加游戏的挑战性。游戏设计辅助则主要应用于游戏开发中,帮助游戏开发者设计游戏难度、关卡等。"}, {"role": "user", "content": "我想要这篇文章的摘要。"}, {"role": "assistant", "content": "这篇文章主要介绍了人工智能的发展历史以及其在游戏领域的应用。人工智能的发展历程经历了多次的起落,随着技术的发展不断完善和创新,已经广泛应用于图像识别、自然语言处理、游戏、机器人等众多领域。在游戏领域,人工智能主要应用于游戏智能代理、游戏设计辅助等。智能代理可以使玩家在游戏中享受更好的游戏体验,同时也可以提高游戏难度,增加游戏的挑战性。游戏设计辅助则主要应用于游戏开发中,帮助游戏开发者设计游戏难度、关卡等。"}]}

但是效果一般, 后考虑使用 https://www.modelscope.cn/datasets/AI-ModelScope/R1-Distill-SFT 这个黑盒蒸馏的数据再试试

测试效果:
在这里插入图片描述

python test_model.py --model_path …/outputs/sft/final --tokenizer_path …/tokenizer

测试对话效果

其实效果不行, 由于我的 预训练轮次1 + SFT轮次11 ,都太少了,现在的模型像是一个小孩一样
在这里插入图片描述

这一篇比较枯燥,感觉只是在找数据集, 下一篇是比较重要的微调

相关文章:

从头训练小模型: 2 监督微调SFT

简介 从头训练小模型是我个人对大语言模型(LLM)学习中的重要部分。 通过对一个小规模模型的最小化复现实践,我不仅能够深入理解模型训练的基本流程,还可以系统地学习其中的核心原理和实际运行机制。这种实践性的学习方法让我能够直观地感受模型训练的每…...

【QT】QT中http协议和json数据的解析-http获取天气预报

QT中http协议和json数据的解析 1.http协议的原理2.QT中http协议的通信流程2.1 方法步骤 3.使用http协议(通过http下载图片和获取天气预报信息)3.1 http下载网络上的图片(下载小文件)3.1.1 示例代码3.1.2 现象 3.2 获取网络上天气预报3.2.1 免费的天气预报…...

PiscTrace针对YOLO深度适配:从v8到v12

一、YOLO简介:目标检测的核心技术 YOLO(You Only Look Once)是近年来最为流行的目标检测模型,凭借其实时性与高精度,广泛应用于自动驾驶、视频监控、安防检测等多个领域。YOLO系列模型自v1问世以来,经过不…...

前端面试每日三题 - Day 24

这是我为准备前端/全栈开发工程师面试整理的第24天每日三题练习,涵盖了: JavaScript 中的 Promise.all()、Promise.race() 和 Promise.allSettled() 的实际应用和性能差异React 中的 Concurrent Rendering 和 useTransition API如何设计一个高并发的在线…...

正态分布习题集 · 题目篇

正态分布习题集 题目篇 全面覆盖单变量正态、多变量正态、参数估计、假设检验、变换以及应用,共 20 题,从基础到进阶。完成后请移步《答案与解析篇》。 1. 基础定义与性质(5题) 1.1 密度函数 写出正态分布 N ( μ , σ 2 ) N(…...

Three.js在vue中的使用(二)-动画、材质

一、Three.js 动画原理与实现 1. 基本原理 Three.js 的动画系统基于 关键帧(Keyframe) 和 时间轴(AnimationClip) 实现: THREE.AnimationMixer:管理多个动画片段的播放器THREE.AnimationClip&#xff1a…...

【办公类-99-04】20250504闵豆统计表excle转PDF,合并PDF、添加中文字体页眉+边框下划线

需求说明 督导检查,各条线都要收集资料。 今天去加班,遇到家教主任,她让我用保教主任的彩色打印机打印这套活跃度表格。(2023学年上学期下学期-2024学年上学期,就是202309-202504) 每个excle都是内容在A4一…...

ES类迁移方法

快照(s3 file FS)跨集群迁移es-dumpremote-reindexLogstash Elasticsearch 迁移方法 Elasticsearch 迁移是将数据、索引和配置从一个 Elasticsearch 集群转移到另一个集群的过程。以下是几种常见的迁移方法: 1. 快照和恢复 (Snapshot and Restore) 这是最推荐的…...

智能合约部署之全国职业院校技能大赛“区块链技术应用”赛项—“航班延误险案例”

智能合约部署之全国职业院校技能大赛“区块链技术应用”赛项—“航班延误险案例” 1.启动虚拟机上的区块链 (1)打开VMware虚拟机,在桌面中点击右键,选择Open Terminal打开命令行窗口。 (2)使用"cd geth_local/"命令,切换至区块链根目录,输入下面的命令启动…...

STM32外设-GPIO输入(仅数字)

STM32外设-GPIO输入 一,输入的三种类型1. 上拉 (Pull-up)输入2. 下拉 (Pull-down)输入3. 浮空 (Floating / High-Impedance)输入 二,下拉电阻的作用 学完基础的led,接下来学习key即按键,但在连接按键之前,我们必须了解…...

QT开发工具对比:Qt Creator、Qt Designer、Qt Design Studio

前端开发工具—Qt Designer Qt Designer是Qt框架的一部分,是一个图形用户界面设计工具。它允许开发者通过可视化方式设计和布局GUI组件,而无需手动编写UI代码。设计完成后,Qt Designer生成UI文件(通常以.ui为扩展名)&…...

(ADC)数模转换器的不同类型对比

(ADC)数模转换器的不同类型对比 数模转换器(ADC)类型详解1. **并行比较型ADC(Flash ADC)****工作原理****优缺点****应用场景** 2. **逐次逼近型ADC(SAR ADC)****工作原理****优缺点…...

MOS管极间电容参数学习

文章目录 前言1. 输入电容(Ciss)2. 输出电容(Coss)3. 反向转移电容(Crss)4,测试条件解读总结 前言 MOS管在电路设计中非常常用,用途包括DC-DC,电平转换等,所…...

Webug4.0靶场通关笔记14- 第18关 文件上传之Nginx解析缺陷

目录 第18关 渗透实战 1.打开靶场 2.构造php脚本 3.源码分析 (1)客户端源码 (2)服务的源码 4.Nginx解析法渗透 (1)缺陷原因 (2)缺陷条件 (3)构造脚…...

外观模式(Facade Pattern)

非常好!现在我们来讲解结构型设计模式之一:外观模式(Facade Pattern)。 我会通过: ✅ 简洁定义 🎯 为什么需要 🐍 Python 代码(含注释) 🧭 流程图 应用场…...

Javase 基础加强 —— 03 集合

本系列为笔者学习Javase的课堂笔记,视频资源为B站黑马程序员出品的《黑马程序员JavaAI智能辅助编程全套视频教程,java零基础入门到大牛一套通关》,章节分布参考视频教程,为同样学习Javase系列课程的同学们提供参考。 集合是一种容…...

【React】 Hooks useTransition 解析与性能优化实践

1.背景 useTransition 是 React 18 引入的一个并发模式下的 Hook,用于区分紧急和非紧急的状态更新,提升应用的响应性和用户体验;它可以管理 UI 中的过渡状态,特别是在处理长时间运行的状态更新时。它允许你将某些更新标记为“过渡”状态&…...

C++23 std::tuple与其他元组式对象的兼容 (P2165R4)

文章目录 引言C23 std::tuple概述std::tuple的定义和基本用法std::tuple的特性std::tuple的应用场景 其他元组式对象的特点Python元组的特点Python元组与C std::tuple的对比 P2165R4提案的具体内容提案背景提案主要内容提案的影响 兼容性示例代码总结 引言 在C编程的世界里&am…...

网络Tips20-003

1.E1载波的控制开销占2/32*100%6.25%,E1载波的基本帧传送时间是125uS。 2.计算机在一个指令周期的过程中,为从内存读取指令操作码,首先要将.程序计数器(PC)的内容送到地址总线上 3.3DES算法:密码学中,3DES是三重数据加密算法通称…...

Rust的安全卫生原则

在Rust编程世界里,unsafe关键字常常让初学者感到困惑。他们经常会问:“在unsafe块里能做什么?”“什么时候需要使用unsafe?” 这些问题虽然很常见,但对于真正理解Rust的安全机制来说还远远不够。因为随着Rust操作语义的…...

TestBench激励与待测

TestBench激励与待测 ✅ 一、TestBench 的作用✅ 二、例化的目的✅ 三、TestBench 中的信号类型选择🟢 输入端口(input) → 在 TestBench 中声明为 reg🟡 输出端口(output)→ 在 TestBench 中声明为 wire ✅…...

VulnHub-OSCP靶机

前言:由于这台机器过于简单,所以我会尽量细化和介绍每个步骤以及涉及到的知识点,让正在打入门机器的你不在迷茫和硬化的操作,理解并熟悉每条命令以及参数的含义,以及把前期带给我们的信息进行快速筛选,有利…...

【前端】【面试】在 Nuxt.js SSR/SSG 应用开发的 SEO 优化方面,你采取了哪些具体措施来提高页面在搜索引擎中的排名?

在 Nuxt.js 的 SSR(服务器端渲染)或 SSG(静态站点生成)应用中,SEO 优化是非常核心的工作内容之一。利用 Nuxt.js 的特性,我们可以通过多个维度系统地提升搜索引擎排名。 下面是我在实际项目中采取的 SEO 优…...

软考 系统架构设计师系列知识点之杂项集萃(53)

接前一篇文章:软考 系统架构设计师系列知识点之杂项集萃(52) 第85题 在静态测试中,主要是对程序代码进行静态分析。“数据初始化、赋值或引用过程中的异常”属于静态分析中的()。 A. 控制流分析 B. 数据…...

【AI面试准备】模型自动化评估经验

面试要求:模型自动化评估经验。 以下是针对模型自动化评估经验的结构化知识总结,涵盖核心概念、工具链、高频考点和面试回答技巧,助你快速掌握关键点: 目录 **一、模型自动化评估的核心逻辑**1. **为什么要自动化评估&#xff1f…...

indexedDB

indexedDB 特点 **容量大:**不同浏览器不一样,250MB **遵守同源策略:**只能访问同源下的数据库,不能跨域 **异步操作:**防止阻塞(特别是大量数据的操作) 事务支持‌:确保数据的…...

Mybatis学习(下)

目录 1. 动态sql的应用 1.2 1.2 1.3 、 、 标签 1.4 1. 动态sql的应用 使用Mybatis框架时, 对于sql数据的操作量比较大的时候, 看着会觉得很乱, 可能写着写着就乱了, 或者说回过头来发现sql语句写错了, 很麻烦, 所以动态sql就可以让我们用Java代码, 替换部分sql语句 1.2 &l…...

[三分钟学算法]分治-快速排序-最小的K个数:设计一个算法,找出数组中最小的k个数。以任意顺序返回这k个数均可。

文章目录 题目详情算法原理编写代码 题目详情 题目链接 设计一个算法&#xff0c;找出数组中最小的k个数。以任意顺序返回这k个数均可。 示例&#xff1a; 输入&#xff1a; arr [1,3,5,7,2,4,6,8], k 4 输出&#xff1a; [1,2,3,4]提示&#xff1a; 0 < len(arr) <…...

从github的插件直接导入unity

我们随便找个插件&#xff1a; A&#xff1a;处直接下载压缩包文件&#xff0c;或是git下载也可以 B&#xff1a;直接下载打好包也行 我们这里选择直接下好的包 请注意!!!有些版本可能不支持&#xff0c;请找到支持的&#xff0c;对应的历史版本进行下载使用 点击B&#xf…...

Linux | 了解Linux中的任务调度---at与crontab 命令

一. 延迟任务 1.1 延迟任务的发起 -- at命令 at命令执行是调用的是atd服务&#xff0c;即使系统最小化安装atd也会被安装到系统中at 任务信息存放在系统中/var/spool/at目录中at 任务的日志文件被存放到/var/log/cron中at 任务执行时如果遇到系统处于关闭状态&#xff0c;那么…...

多语言笔记系列:Polyglot Notebooks 多种使用方式

.NET Interactive 使用方式 .NET Interactive生态&#xff0c;大约由&#xff1a;前端UI(Jupyter、VSCode等)、交互协议(PMP、JMP)、执行器(.net interactive)和语言服务组成。 有多种组合方式&#xff0c;来使用。最常用的还是 VS Code(Polyglot Notebooks插件)充当前端UI&am…...

TF-IDF算法详解

引言 TF-IDF&#xff08;Term Frequency-Inverse Document Frequency&#xff09;是信息检索和文本挖掘中常用的加权技术&#xff0c;用于评估一个词语对于一个文档集或语料库中某个文档的重要程度。 一、基本概念 1. 组成要素 TF-IDF由两部分组成&#xff1a; TF (Term F…...

C语言实现数据结构:堆排序和二叉树_链式

一.堆的应用 1.堆排序 void test01() {int arr[] { 17,20,10,13,19,15 };int n sizeof(arr) / sizeof(arr[0]);HP p;HPInit(&p);for (int i 0; i < n; i){HPPush(&p, arr[i]);}int i 0;while (!HPEmpty(&p)){arr[i] HPTop(&p);HPPop(&p);}for (i…...

网狐系列三网通新钻石娱乐源码全评:结构拆解、三端实测与本地部署问题记录

本文为基于“网狐系列三网通新钻石娱乐电玩”源码的私测报告&#xff0c;涵盖前后端结构解析、三端测试结果、控制台功能说明、智能机器人机制以及本地部署过程中的真实报错与解决策略。文章目的仅限于源码结构研究和测试用途&#xff0c;不具备任何上线、商用部署条件。 一、源…...

C语言的指针认识

当实参传递给形参时&#xff0c;形参实例化相当于实参的一份临时拷贝 对形参的修改不能改变实参&#xff0c;除非用指针...

iview自定义下拉树菜单

最近由于项目需要&#xff0c;封装了第二种下拉树&#xff0c;带checkBox并且可以支持快速选择的下拉树。样式如下 自定义下拉树菜单.png 所实现交互功能如下&#xff1a; 1.点击对应的层级按钮&#xff0c;自动勾选出对应的所有同级节点。 2.点击自定义&#xff0c;清空所有勾…...

Dubbo(94)如何在金融系统中应用Dubbo?

在金融系统中应用Dubbo&#xff0c;可以通过以下步骤实现&#xff1a; 项目结构设计&#xff1a;规划项目的模块结构&#xff0c;通常包括服务接口模块、各个服务提供者模块&#xff08;如账户服务、交易服务、风控服务等&#xff09;、服务消费者模块&#xff08;如前端应用、…...

Linux:web服务

一、nginx的安装及启用 1、为主机配置IP和搭建软件仓库 &#xff08;1&#xff09;IP的配置 &#xff08;2&#xff09;搭建软件仓库 2、 web服务的安装与启用 &#xff08;1&#xff09;nginx的端口 更改nginx端口号 效果 &#xff08;2&#xff09; 默认发布目录 修改默认发…...

process terminated with status -1073741515

使用CodeBlocks25.03编译wxWidgets3.2.8程序时提示process terminated with status -1073741515 后来自己重新编译生成了一下wxWidgets3.2.8源码&#xff0c;问题得以解决。...

2025信息安全网络安全意识培训资料汇编(24份)

最新整理&#xff1a;2025信息安全网络安全意识培训资料汇编&#xff0c;共24份资料&#xff0c;供学习参考。 互联网信息安全意识培训.pptx100个网络安全风险防范知识.pptx亚信信息安全意识培训.pptx网络安全法规及意识培训.pptx网络安全意识与案例分析.pptx绿盟-安全意识培训…...

线程概念与控制

Linux线程概念 什么是线程 在一个程序里的一个执行路线就叫做线程&#xff08;thread&#xff09;。更准确的定义是&#xff1a;线程是“一个进程内部 的控制序列”&#xff0c;一切进程至少都有一个执行线程&#xff0c;线程在进程内部运行&#xff0c;本质是在进程地址空间内…...

【SpringAI+阿里云百炼】AI对话4个Demo

基于SpringAI和阿里云百炼平台&#xff0c;实现了四个AI对话的小Demo 小团团对话机器人哄哄模拟器培训班智能客服仿ChatPDF 笔记如下:语雀知识笔记《SpringAI》...

Redis-----认识NoSQL

文章目录 前言一、SQL的结构化与NoSQL非结构化1.SQL2.NoSQL 二、关系型数据库SQL与非关系型数据库NoSQL1.SQL2.NoSQL 三、SQL查询与NoSQL查询1.SQL2.NoSQL 四、事务的区别1.SQL2.NoSQL 总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 提示&#xff…...

驱动开发硬核特训 · Day 27(下篇):深入掌握 Common Clock Framework 架构与实战开发

节。 在本篇内容中&#xff0c;我们将围绕 Linux 内核中的时钟子系统核心架构 —— Common Clock Framework&#xff08;简称 CCF&#xff09;展开深入讲解&#xff0c;目标是帮助你全面理解其设计理念、主要数据结构、注册流程、驱动实现方式&#xff0c;以及如何基于 NXP i.M…...

Qt基础知识记录(终篇)

写在前面 博主的项目所需知识已经差不多学完了&#xff0c;后续如果还需要再学习那就继续学&#xff0c;毕竟程序员就是摸着石头过河的&#xff0c;碰壁乃是常有的事情。博主的项目服务器是用MySQL存储数据的&#xff0c;所以博主学习一下Qt如何连接MySQL及从MySQL中存取数据 博…...

LeetCode刷题链表

文章目录 链表总结 常用技巧两数相加题解代码 两两交换链表中的节点题解代码 重排链表题解代码 合并k个升序链表题解代码 K个一组翻转链表题解代码 链表总结 常用技巧 画图 直观 形象 便于理解引入虚拟头节点&#xff0c;便于处理边界情况&#xff0c;方便我们对链表进行…...

transfomer网络构建

目录 整体架构 详细模块分析 Transformer 算法的演进 代码讲解 1. 导入必要的库 2. InputEmbeddings 类 3. PositionalEncoding 类 4. LayerNormalization 类 5. FeedForwardBlock 类 6. MultiHeadAttentionBlock 类 7. ResidualConnection 类 8. EncoderBlock 类 9. Encoder 类…...

【mathematica】常见命令

mathematica官方文档 下载安装 安装激活教程 基本用法 输入、画图、基本运算、方程组求解、公式导出、 笔记本新建&#xff1a; 文件-新建-笔记本 输入&#xff1a; 直接在界面输入定义的变量、式子或者方程组即可 输出&#xff08;计算&#xff09; ENTER : 换行ENTER SHIF…...

photoshop学习笔记2

第一章 第01节-界面的重要性(学习方法) 第02节-文件的打开新建及储存 第03节-移动工具(图层概念) 学习目标&#xff1a; 1.了解图层概念 2.认识工具属性 3.掌握工具使用 图层的概念 移动工具 移动工具就是用来移动图层内容的。是否可以用来移动组…...

从软件到硬件:三大主流架构的特点与优劣详解

常见的架构包括软件架构、企业架构、硬件架构等&#xff0c;以下是对这几种常见架构的分析&#xff1a; 一、软件架构 1.分层架构 描述&#xff1a;分层架构是一种经典的软件架构模式&#xff0c;将软件系统按照功能划分为不同的层次&#xff0c;一般包括表现层&#xff08;…...