跟李沐学AI:InstructGPT论文精读(SFT、RLHF)
原论文:[2203.02155] Training language models to follow instructions with human feedback
原视频:InstructGPT 论文精读【论文精读·48】_哔哩哔哩_bilibili
简介
1. RLHF 的基本概念
RLHF 是一种结合强化学习和人类反馈的训练方法,旨在让模型生成更符合人类期望的输出。它通过引入人类的偏好数据来调整模型的行为,使其不仅能够生成语法正确的文本,还能生成语义上更贴合用户意图的内容
2. RLHF 的主要步骤
RLHF 的流程通常分为以下三个阶段:
(1) 预训练语言模型
- 在 RLHF 流程开始之前,使用一个预训练的语言模型作为基础。
- 预训练的目标是让模型掌握大规模语言知识,但此时的模型尚未经过特定任务的优化
(2) 监督微调(Supervised Fine-Tuning, SFT)
- 在这一阶段,研究人员收集一组高质量的人类生成的指令-响应对(instruction-response pairs),并用这些数据对预训练模型进行监督微调。
- 这些指令-响应对由人类标注者编写,确保模型学会如何根据明确的指令生成合适的回答
(3) 强化学习优化
- 强化学习阶段是 RLHF 的核心部分,分为两个子步骤:
- 奖励模型(Reward Model, RM)训练 :研究人员收集人类对模型输出的偏好数据(例如,标注者选择更优的回答),并用这些数据训练一个奖励模型。奖励模型的作用是为模型生成的回答打分,反映其质量或与人类期望的匹配程度。
- 策略优化(Policy Optimization) :使用强化学习算法(如 PPO,Proximal Policy Optimization)对模型进行进一步优化。PPO 是一种高效的强化学习算法,能够在保持模型稳定性的同时提升性能。模型会根据奖励模型的反馈不断调整其生成策略,最终生成更符合人类偏好的回答。
3. RLHF 的优势
- 更高的指令遵从性 :通过引入人类反馈,InstructGPT 能够更好地理解并执行复杂的指令,减少了无关或不准确的回答。
- 减少有害内容 :RLHF 方法可以帮助模型避免生成有害、偏见或不适当的内容,从而提高安全性。
- 自然流畅的对话能力 :虽然 InstructGPT 更注重指令执行,但 RLHF 的优化也让模型在对话场景中表现得更加自然。
摘要
扩大模型的规模并不能从本质上让模型遵守用户的意图。如大语言模型可能像用户生成不真实、有害的或者无用的输出。
这篇文章中,作者团队提出了一种将大语言模型在大规模基于人类反馈的微调数据上与用户意图对齐的方法。
从一组标注者编写的提示词和通过OpenAI API提交的提示词开始,作者团队收集了一个数据集,其中包含标注者预期的模型输出结果,作者用这些数据来通过监督学习微调GPT-3。
然后,作者收集了一个模型输出排名的数据集,进一步使用基于人类反馈的强化学习来微调这个监督模型,并将最终得到的模型称为InstructGPT。
导论
大语言模型可以根据提示来完成一系列自然语言处理工作,但是模型经常会出现捏造事实、生成有偏见或有害的文本内容。作者认为这是因为模型训练的目标函数存在错误。模型训练的目标函数是从网络文本中预测下一个词元,这一目标函数与遵循用户提示的目标有一定偏差。这就是语言建模目标没有“对齐”。
为此,作者提出RLHF(Reinforcement Learning form Human Feedback,基于人类反馈的强化学习),以保证模型输出具有帮助性(helpful)、真实性(honest)和无害性(harmless)。
1. 采集各类问题prompt;
2. 标注者对问题进行回答(以模型预期的输出方式进行回答)
3. prompt+回答的文本对讲用于微调GPT-3 (SFT,Self Supervised Learning,有监督微调)
1. 收集一段问题prompt,同时讲模型对这个问题的不同输出进行采样。(模型输出具有随机性,所以对同一个问题会有不同的回答,输出的灵活度取决于解码策略)
2. 标注者对采样的模型输出从好到坏进行排序。
3. 将这些有好坏排序标注的回答数据用于训练一个奖励模型(RM,Reward Model)
这一步可以减轻数据标注成本。
1. 从数据集中随机抽取一个新的提示(prompt),例如“Write a story about frogs”(写一个关于青蛙的故事)。这个提示将作为输入提供给策略模型。
2. 策略模型(Policy Model)根据接收到的提示生成一个输出。在这个例子中,策略模型可能生成一段故事的开头,如“Once upon a time...”(从前……)。
3. 奖励模型(Reward Model, RM)对策略模型生成的输出进行评估,并计算出一个奖励值(reward)。这个奖励值反映了输出的质量或与人类期望的匹配程度。
4. 计算出的奖励值被用于通过PPO(Proximal Policy Optimization,近端策略优化算法)更新策略模型。PPO 是一种高效的强化学习算法,能够帮助策略模型根据奖励信号调整其生成策略,从而在后续迭代中生成更高质量的输出。
方法
数据集来源:
标注人员编写提示词,提示词涉及如下三类:
- 一般性的任意提示词
- 多步问答提示词
- 用户反馈的提示词:每个用户最多会被采集200个提示词,数据将根据用户ID来划分为训练集、测试集、验证集。
基于这些提示词,作者创造了三种不同的数据集:
- SFT数据集:标注人员基于提示词编写答案
- RM数据集:标注人员对模型输出的结果进行排序
- PPO数据集:没有任何人工标签,直接用于RLHF微调
数据标注:招聘了40人进行数据标注,与这些标注人员紧密联系。
模型
1. 在SFT数据集基础上,对GPT-3进行微调,一共训练了16轮。SFT模型仅仅在第一轮就出现了过拟合,但是对后续步骤没有影响,甚至有帮助。
2. RM模型移除了SFT模型中的Softmax层,转为一层线性层将模型输出投影为一个标量奖励。本文使用了6B的模型作为奖励模型。
RM模型的损失函数如下:
对于每个输入Prompt x,我们生成 K 个不同的答案,这里 K=9。我们将这些答案分为两组:一组是排序较高的答案 Yw,另一组是排序较低的答案 Yl。
我们的目标是让模型能够正确地识别出哪些答案更好。为此,我们将 Yw 和 Yl 输入到奖励模型中,分别得到它们的奖励分数 rθ(x,Yw) 和 rθ(x,Yl)。由于 Yw 的排序高于 Yl,我们希望 Yw 的奖励分数也高于 Yl。
为了实现这一目标,我们计算两个答案的奖励分数之差,并通过sigmoid函数进行转换,以确保结果在0到1之间。然后,我们对这个结果取对数,并添加一个负号,以确保当 Yw 的奖励高于 Yl 时,损失值为正。最后,我们将这个值乘以1 / (CK_2),即 1 / 36,以平均化所有可能的配对组合。
3. 强化学习:使用PPO算法对策略进行优化。
结果
经过SFT+RLHF后的1.3B模型效果好于原有的175B GPT-3模型。
局限性:
- 1. 模型的行为与标注者息息相关
- 2. 模型不是完全的安全
相关文章:
跟李沐学AI:InstructGPT论文精读(SFT、RLHF)
原论文:[2203.02155] Training language models to follow instructions with human feedback 原视频:InstructGPT 论文精读【论文精读48】_哔哩哔哩_bilibili 简介 1. RLHF 的基本概念 RLHF 是一种结合强化学习和人类反馈的训练方法,旨在…...
RedisTemplate存储含有特殊字符解决
ERROR信息: 案发时间: 2025-02-18 01:01 案发现场: UserServiceImpl.java 嫌疑人: stringRedisTemplate.opsForValue().set(SystemConstants.LOGIN_CODE_PREFIX phone, code, Duration.ofMinutes(3L)); // 3分钟过期作案动机: stringRedisTemplate继承了Redistemplate 使用的…...
燧光 XimmerseMR SDK接入Unity
官网SDK文档连接: RhinoX Unity XR SDK 一:下载SDK 下载链接:RhinoX Unity XR SDK 二:打开Unity项目,添加Package 1、先添加XR Core Utilties包和XR Interaction Toolkit包 2、导 2、再导入下载好的燧光SDK 三&…...
Mycat中间件
一、概述 Mycat是开源的,活跃的、基于java语言编写的MySQL数据库中间件。可以像使用MySQL一样使用mycat,对于开发人员来说根本感觉不到mycat的存在; 二、安装 Mycat是采用java语言开发的开源数据库中间件,支持windows和linux运行环…...
【HBase】HBaseJMX 接口监控信息实现钉钉告警
目录 一、JMX 简介 二、JMX监控信息钉钉告警实现 一、JMX 简介 官网:Apache HBase ™ Reference Guide JMX (Java管理扩展)提供了内置的工具,使您能够监视和管理Java VM。要启用远程系统的监视和管理,需要在启动Java…...
OpenLayers总结3
一、 静态测距 1.原理 静态测距主要是针对地图上已有的矢量要素(如线要素),利用 OpenLayers 提供的几何计算函数来获取其长度。在实际操作中,先加载包含几何要素的 GeoJSON 数据到矢量图层,当鼠标指针移动到要素上时…...
【OpenCV】在Liunx中配置OpenCV环境变量
将 /usr/local/include/opencv4 加入到环境变量中,可以帮助编译器找到 OpenCV 的头文件。这可以通过设置 CPLUS_INCLUDE_PATH 和 C_INCLUDE_PATH 环境变量来实现。以下是具体步骤: 方法一:临时设置环境变量 如果您希望临时设置这些环境变量…...
游戏引擎学习第109天
回顾目前进展 在这一期中,讨论了游戏开发中的一个重要问题——如何处理Z轴值的表示,尤其是在一个3D游戏中,如何更好地表示和存储这些值。上次的进展中,已经解决了透视投影的问题,意味着渲染部分的Z轴代码基本上已经完…...
npm、yarn、pnpm 的异同及为何推荐 pnpm
文章目录 一、引言二、npm 介绍(一)工作原理和特点(二)优势与不足 三、yarn 介绍(一)诞生背景和特性(二)与 npm 的主要区别 四、pnpm 介绍(一)核心优势和创新…...
基于遗传算法排课系统
一、遗传算法介绍: 遗传算法核心的任务是要通过编码体系,给出解决方案的染色体表现规则,首先需要随机初始化一定数量的种群(population),而种群则由一定数目的个体(individual)构成。每个个体实际上是染色体…...
Windows 图形显示驱动开发-GpuMmu 示例方案
本文介绍常见使用方案以及实现这些方案所需的操作顺序。 更新进程的页表条目 下面是更新页表条目以将属于进程 (P) 的分配映射到物理内存的操作序列。 假定页表分配已驻留在图形处理单元中GPU)内存段。 视频内存管理器在分页进程上下文中为进程 P 的根页表分配分配虚拟地址范…...
【Linux AnolisOS】关于Docker的一系列问题。尤其是拉取东西时的网络问题,镜像源问题。
AnolisOS 8中使用Docker部署(全)_anolis安装docker-CSDN博客 从在虚拟机安装龙蜥到安装docker上面这篇文章写的很清晰了,我重点讲述我解决文章里面问题一些的方法。 问题1: docker: Get https://registry-1.docker.io/v2/: net/h…...
策略+适配器模式详解
文章目录 1.策略模式1.目录结构2.Strategy.java 策略接口3.StrategyA.java 策略A4.StrategyB.java 策略B5.StrategyC.java 策略C6.Context.java 策略上下文7.Client.java 客户端8.小结 2.适配器模式1.目录结构2.CustomPaymentProcessor.java 自己的支付接口3.PayPalPaymentServ…...
Vue中事件名的命名规范
Vue中事件名的命名规范 起因: 本人之前不太写vue的项目,最近接触了vue的代码,在学习的过程中同时也会伴随着一点疑惑。比如一以下面的父子组件的事件传递为例: 父组件: 显然,父组件有个自定义事件refre…...
云计算架构学习之Ansible-playbook实战、Ansible-流程控制、Ansible-字典循环-roles角色
一、Ansible-playbook实战 1.Ansible-playbook安装软件 bash #编写yml [rootansible ansible]# cat wget.yml - hosts: backup tasks: - name: Install wget yum: name: wget state: present #检查playbook的语法 [rootansible ansible]…...
背包dp与数位dp
背包dp 介绍 动态规划实际上就是将复杂问题分解成若干个子问题,并通过子问题的解逐步发展成整体问题的解的算法思想。(我感觉这个解释就跟递归的思想一样) 背包问题分为01背包(物体只能使用一次),完全背包(物体可以使用无数次)&…...
【linux】更换ollama的deepseek模型默认安装路径
【linux】更换ollama的deepseek模型默认安装路径 文章目录 【linux】更换ollama的deepseek模型默认安装路径Ollama 默认安装路径及模型存储路径迁移ollama模型到新的路径1.创建新的模型存储目录2.停止ollama3.迁移现有模型4.修改 Ollama 服务配置5.重启ollama6.验证迁移是否成功…...
【紫光同创国产FPGA教程】——FPGA开发工具使用
本原创文章由深圳市小眼睛科技有限公司创作,版权归本公司所有,如需转载,需授权并注明出处(www.meyesemi.com) 一:实验简介 实验目的:了解PDS软件的使用,在线Debugger工具的使用请看第八章uart实…...
面试技术分享:MySQL死锁与事务等待超时的临时解决方案
📝 面试技术分享:MySQL死锁与事务等待超时的临时解决方案 1. 问题背景 某电商系统在促销高峰期出现库存更新失败,日志报错: Lock wait timeout exceeded; try restarting transaction (errno 1213)现象:多个事务因争…...
6.3 k8s的事件event和kube-scheduler中的事件广播器
什么是k8s的events k8s的events是向您展示集群内部发生的事情的对象 例如调度程序做出了哪些决定或者为什么某些 Pod 从节点中被逐出 哪些组件可以产生events 所有核心组件和扩展(操作符)都可以通过 API Server 创建事件k8s 多个组件均会产生 event …...
OAI 平台 4G(LTE)基站 、终端、核心网 端到端部署实践(一)
本系列文章,基于OAI LTE代码搭建端到端运行环境,包含 eNB,EPC,UE三个网元。本小节先介绍系统总体架构,硬件平台及驱动安装方法。 1. Overview 系统总体架构如下图所示。 2 Machine setup 2.1 Machine specs Distributor ID: Ubuntu Description: Ubuntu 18.04.5 LTS…...
t113修改串口
1 sys_config.fex [uart_para] uart_debug_port 0 uart_debug_tx port:PE02<6><1><default><default> uart_debug_rx port:PE03<6><1><default><default> 2 uboot修改启动参数 3 修改env.cfg启动地址和传输 #ear…...
「软件设计模式」桥接模式(Bridge Pattern)
深入解析桥接模式:解耦抽象与实现的艺术 一、模式思想:正交维度的优雅解耦 桥接模式(Bridge Pattern)通过分离抽象(Abstraction)与实现(Implementation),使二者可以独立…...
“地质环境体检”辅助智慧地质,服务工程建设、城市用地规划
随着社会经济的高速发展,各类工程建设也在加快筹建中。在工程项目的快速推进中,如何保障工作安全和工程建设的质量,是国家和社会普遍关注的一个问题。地质环境条件是影响工程建设、城市用地规划的重要因素,加强地质风险系统性研究…...
TMS320F28335二次bootloader在线IAP升级
F28335总共ABCDEFGH个区域,每个32K*16bits,即64K字节。 bootloader代码占用A区,地址0x338000~0x33FF7F,cmd文件中SECTIONS部分,需要添加Flash28_API相关信息,具体下载Flash28335_API_V210的demo࿰…...
java:用Guava的TypeToken优雅处理通配符类型(WildcardType): ? extends Number
在日常开发中我们经常会遇到泛型和通配符类型(WildcardType),比如当我们需要处理List<? extends Number>这样的类型时,如何优雅地创建这样的类型表示?本文将重点介绍如何通过Guava的TypeToken来实现通配符类型的…...
ROS-相机话题-获取图像-颜色目标识别与定位-目标跟随-人脸检测
文章目录 相机话题获取图像颜色目标识别与定位目标跟随人脸检测 相机话题 启动仿真 roslaunch wpr_simulation wpb_stage_robocup.launch rostopic hz /kinect2/qhd/image_color_rect/camera/image_raw:原始的、未经处理的图像数据。 /camera/image_rectÿ…...
Zabbix——Rocky9安装zabbix相关步骤记录
安装Zabbix 安装MariaDB 这里用MariaDB演示 https://mariadb.org/download/?trepo-config&dRedHatEnterpriseLinux9&v10.11&r_mneusoft 通过这个网址获得连接 选择对应的repo 根据系统版本和要安装的版本选择对应的repo 安装 新建一个repo文件,例…...
三轴云台之姿态测量篇
一、姿态测量的基本原理 三轴云台通过内置的传感器实时感知其姿态变化。这些传感器主要包括陀螺仪、加速度计和磁力计(在某些高级系统中)。 陀螺仪:用于检测云台的角速度变化,即绕三个轴的旋转速度。陀螺仪提供的数据是姿态测量的…...
Kotlin 2.1.0 入门教程(二十三)泛型、泛型约束、协变、逆变、不变
out(协变) out 关键字用于实现泛型的协变。协变意味着如果 B 是 A 的子类型,那么 Producer<B> 可以被视为 Producer<A> 的子类型。这里的 Producer 是一个使用泛型类型参数的类或接口,并且该泛型类型参数被标记为 ou…...
VSCode 中使用 Snippets 设置常用代码块
背景 在开发中,有很多代码片段是重复的,例如:vue文件中的模版,react 中的模版,打印的 log 等等,很多很多。对于这些重复性的工作,vscode 官方提供了解决方案-Snippets in Visual Studio Code&a…...
在conda虚拟环境中安装jupyter lab-----deepseek问答记录
在 Conda 虚拟环境中安装 Jupyter Lab 的步骤如下: 1. 创建并激活 Conda 虚拟环境 如果你还没有创建虚拟环境,可以使用以下命令创建一个新的虚拟环境并激活它: conda create -n myenv python3.x # 将 myenv 替换为你的环境名称࿰…...
单元测试整理
在国外软件开发中,单元测试必不可少,但是国内并不太重视这一块,一个好的单元测试可以提前发现很多问题,也减去和测试battle的时间 Spring单元测试 JUnit4 RunWith 指明单元测试框架 e.g. RunWith(SpringJUnit4ClassRunner.cla…...
计算机毕业设计hadoop+spark旅游景点推荐 旅游推荐系统 旅游可视化 旅游爬虫 景区客流量预测 旅游大数据 大数据毕业设计
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
Java虚拟机面试题:内存管理(下)
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...
【贝克街迷宫疑云:用侦探思维破解Java迷宫算法】
贝克街迷宫疑云:用侦探思维破解Java迷宫算法 "华生,把煤气灯调亮些。"福尔摩斯用放大镜仔细端详着桌上的羊皮纸,“这个案子比表面上看起来要复杂得多——它是个三维的思维迷宫。” 第一幕:离奇委托 1895年秋的伦敦笼…...
网络安全示意图 网络安全路线图
其实网络安全本身的知识点并不算难,但需要学的东西比较多,如果想要从事网络安全领域,肯定是需要系统、全面地掌握清楚需要用到的技能的。 自学的方式基本是通过看视频或者相关的书籍,不论是什么方法,都是很难的&#…...
ubuntu22.04离线安装K8S
1. 准备离线安装包 参考教程离线包准备教程 2. 准备环境 2.1. 准备主机 主机名ip系统k8s-master192.168.38.128ubuntu22.04k8s-node192.168.38.131ubuntu22.04 2.2. 设置host 修改 /etc/hosts 文件,添加master和node节点,需要和主机名保持一致 2…...
985本硕,网络安全方向,走算法还是走开发?
今天给大家分享的是一位粉丝的提问,985本硕,网络安全方向,走算法还是走开发? 接下来把粉丝的具体提问和我的回复分享给大家,希望也能给一些类似情况的小伙伴一些启发和帮助。 同学提问: 985本硕ÿ…...
如何清理 Linux 缓存 ?
和其他操作系统一样,Linux 使用缓存来优化系统性能。随着时间的推移,这些缓存可能会累积起来,尽管 Linux 擅长管理内存,但在某些情况下,手动清除可能是有益的,例如用于系统诊断、应用程序性能测试或其他特定…...
cv2库的使用及图像预处理02
目录 八,图像缩放 1. 图像缩放操作 2. 插值方法 (1)最邻近插值(cv2.INTER_NEAREST) (2)双线性插值(cv2.INTER_LINEAR) 3. 显示缩放结果 4. 目标尺寸 5. 总结 九,线性灰度变…...
硬件学习笔记--45 电磁兼容试验-9 无线电干扰抑制试验介绍
目录 电磁兼容试验- 无线电干扰抑制试验 1.试验目的 2.试验方法 3.判定依据及意义 电磁兼容试验- 无线电干扰抑制试验 驻留时间是在规定频率下影响量施加的持续时间。被试设备(EUT)在经受扫频频带的电磁影响量或电磁干扰的情况下&a…...
P1464 Function(记忆化递归)
#include <bits/stdc.h> using namespace std;#define ll long longll dp[21][21][21]; // dp数组,用来记忆已经计算过的结果ll w(ll a, ll b, ll c) {if (a < 0 || b < 0 || c < 0) {return 1;}if (a > 20 || b > 20 || c > 20) {return …...
OpenCV机器学习(7)人工神经网络 定义模型训练过程中参数的搜索范围cv::ml::ParamGrid 类
OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::ml::ParamGrid 类是 OpenCV 机器学习模块中的一个辅助类,用于定义模型训练过程中参数的搜索范围。它通常被用作某些机器学习算法(如支持向量机 SVM&…...
STL —— 洛谷字符串(string库)入门题(蓝桥杯题目训练)(一)
目录 一、B2109 统计数字字符个数 - 洛谷 算法代码: 1. 引入库和命名空间 2. 主函数 3. 读取输入 4. 变量初始化 5. 遍历字符串 6. 输出结果 7. 返回值 总结 评测记录: 二、B2110 找第一个只出现一次的字符 - 洛谷 方法一:算法代…...
游戏引擎学习第107天
仓库:https://gitee.com/mrxiao_com/2d_game_2 回顾我们之前停留的位置 在这段内容中,讨论了如何处理游戏中的三维效果,特别是如何处理额外的“Z层”。由于游戏中的艺术资源是位图而不是3D模型,因此实现三维效果变得非常具有挑战性。虽然可…...
网页制作01-html,css,javascript初认识のhtml的基本标记
一、 Html简介 英文全称是 hyper text markup language,超文本标记语言,是全球广域网上描述网页内容和外观的标准. Html作为一款标记语言,本身不能显示在浏览器中.标记语言经过浏览器的解释和编译,才能正确地反映html标记语言的内容. 1.html 的基本标记 1)头部标…...
WebSocket在分布式环境中的局限性及解决方案
WebSocket 在分布式环境中存在一些局限性,特别是当系统需要扩展多个服务实例时,单个 WebSocket 连接的管理和消息推送就变得比较复杂。因此,必须采取一些额外的措施来确保 WebSocket 能在多个服务实例之间正确工作。 WebSocket 在分布式环境…...
Windows日志分析
查看服务日志文件 windows下我们可以通过时间查看器来查看windows系统下服务,应用,系统等产生的事件以及日志 1.打开方式是: winr 输入eventvwr.msc 2.控制面板--系统与安全--事件查看器 事件类型分为5种 错误:标识问题很严重…...
青少年编程与数学 02-009 Django 5 Web 编程 20课题、测试
青少年编程与数学 02-009 Django 5 Web 编程 20课题、测试 一、软件测试二、自动化测试三、单元测试四、Django 单元测试(一)、创建测试用例(二)、运行测试(三)、常用测试功能 课题摘要: 本文全面介绍了软件…...