一文讲透大模型强化学习基础:PPO、DPO、GRPO
DeepSeek-R1 的强化学习方案中,其亮点之一在于通过 GRPO 算法取代RLHF 常用的 PPO,通过尽可能减少人类标注数据,设计纯 RL 的环境,用精心设计的奖励机制来训练模型自己学会推理。
那么什么是PPO、GRPO,其产生的背景、核心思想和应用场景又有哪些?
本文将从以下方面介绍:
-
强化学习基础
-
PPO、DPO、GRPO深度解析
-
总结与应用建议
技术交流
一、强化学习基础
- 什么是强化学习?
定义:强化学习(Reinforcement Learning, RL)是机器学习的一个分支,其核心是通过与环境(Environment)的交互学习最优决策策略。通过试错获得反馈(奖励或惩罚),最终目标是最大化累积奖励。
类比:类似于训练小狗完成动作——做对了给零食(正奖励),做错了不鼓励(负奖励),最终小狗学会“坐下”或“握手”。
- 强化学习的产生背景
起源:1950年代控制论与心理学研究的结合,早期应用于机器人路径规划、游戏AI等。
核心需求:解决序列决策问题(Sequential Decision Making),即在多步决策中平衡短期与长期收益。
爆发点:2016年AlphaGo击败李世石,强化学习成为AI领域的热点技术。
- 强化学习核心要素
- 强化学习核心方法分类
- RLHF(基于人类反馈的强化学习)
类比:AI的“家教辅导班”
想象你在教一个孩子学画画,但无法直接用分数评价每幅画的好坏(传统奖励函数设计困难)。于是你请了一位美术老师(人类),对孩子的画作进行点评(反馈),告诉TA哪些线条更优美、哪些配色需要改进。
RLHF的核心思想:通过人类的主观反馈替代或修正环境奖励,让AI更符合人类价值观。
RLHF vs 传统强化学习
通过RLHF,AI不仅能完成目标任务,还能理解人类的主观意图和价值观。这是DPO、PPO、GRPO等技术的重要应用场景之一。
二、PPO、DPO、GRPO深度解析
- PPO(近端策略优化)
类比:健身教练的“安全训练计划”
想象你是一名健身教练,学员要通过不断调整训练动作来增强肌肉(最大化奖励)。但直接让学员每天大幅增加训练量(策略突变),可能会导致受伤(训练崩溃)。
PPO的核心思想:制定一个“安全范围”,让学员每次训练量只能小幅调整,确保稳定进步。
核心原理详解
(1) 策略梯度(Policy Gradient):
基础思想:根据动作的“好坏”(优势函数)调整策略。比如,某个动作让学员举得更重(高奖励),就多鼓励这个动作。
问题:如果学员突然尝试过重的动作(策略突变),可能导致肌肉拉伤(训练崩溃)。
(2) PPO的改进——Clip机制:
“安全阈值”:规定每次训练量变化不超过±20%(类比Clip阈值ε=0.2)。
(3) 价值网络(Critic)的作用:
类似于“体能评估师”,预测某个训练动作的长期效果(状态价值)。
帮助计算优势函数At:当前动作比平均动作好多少(例如举12kg比举10kg多带来20%的效果增益)。
优缺点总结
优点:稳定可控,适合复杂任务(如机器人学走路、游戏AI打Boss)。
缺点:需依赖“体能评估师”(Critic网络)和大量训练数据,计算成本高。
实际应用
ChatGPT的微调:用PPO结合人类反馈的奖励模型,让模型生成更自然的回答。
- DPO(直接偏好优化)
类比:学生通过“老师批改”直接改进答案
假设学生写作文,老师不会直接给分数(奖励模型),而是标注“这段写得好,那段需要删掉”(偏好数据对)。学生通过对比好答案和差答案,直接改进写作策略。
DPO的核心思想:跳过“评分标准”(奖励模型),直接用老师的批注优化作文。
核心原理详解
(1) 传统RLHF的缺陷:
传统方法:先让老师制定评分标准(训练奖励模型),再让学生按标准优化(PPO)。流程复杂,容易出错。
DPO的简化:直接告诉学生“答案A比答案B好”,无需解释为什么。
(2) 损失函数解析:
LDPO=−logσ(β(logπθ(yw∣x)−logπθ(yl∣x)))
-
σ:Sigmoid函数,将差值转化为概率(例如好答案比差答案的概率高80%)。
-
β:控制优化强度(类似老师批改的严格程度)。
(3) 工作原理:
输入数据:标注的偏好对(如“答案A逻辑清晰,答案B跑题”)。
优化目标:让模型对好答案yw的概率显著高于差答案yl。
优缺点总结
优点:无需训练奖励模型,显存占用低,适合快速微调(如让ChatGPT生成更友善的回答)。
缺点:依赖高质量偏好数据(若老师批改不准确,学生可能学偏)。
实际应用
对话模型对齐:让AI拒绝回答有害问题(如“如何制造炸弹?”)。
文本摘要优化:根据用户点击数据(偏好信号),生成更吸引人的摘要。
- GRPO(组相对策略优化)
类比:“选秀比赛”中的组内PK
假设综艺节目选拔歌手,导演让同一组选手唱同一首歌(生成多候选),根据组内表现(奖励)决定晋级和淘汰。
GRPO的核心思想:通过组内比较(而非绝对评分)优化策略,节省评委(Critic网络)的成本。
核心原理详解
(1) 组内相对奖励:
多候选生成:同一问题生成多个答案(如5种解题思路)。
奖励归一化:将组内答案的奖励转换为标准分(例如:某答案比组内平均分高1个标准差,则优势显著)。
公式示例:
-
μ组:组内平均奖励(如5个答案的平均得分)。
-
σ组:组内奖励标准差(反映答案质量的波动)。
(2) 省略Critic网络:
传统PPO需要评委(Critic)预测每个答案的得分,GRPO直接通过组内PK动态计算优势,节省显存。
(3) 稳定性控制:
KL散度惩罚:防止新策略与旧策略差异过大(如选手突然改变唱法,导致观众不适应)。
剪切机制:限制策略更新幅度(类似PPO的Clip)。
优缺点总结
优点:显存占用降低50%,适合资源受限场景(如手机端模型训练);多候选生成增强多样性(如探索不同解题思路)。
缺点:推理时需生成多个候选答案,耗时增加。
实际应用
数学推理:DeepSeek-R1模型在GSM8K数学题上,通过多答案PK提升准确率至51.7%。
代码生成:生成多种代码实现,选择最简洁高效的版本。
三、总结与应用建议
1. 核心对比
2. 应用建议
PPO:需与环境交互或依赖奖励模型的复杂任务(如机器人控制)。
DPO:拥有高质量偏好数据且需快速微调语言模型的任务(如对话生成)。
GRPO:显存受限或需增强多样性的任务(如数学推理、代码生成)。
相关文章:
一文讲透大模型强化学习基础:PPO、DPO、GRPO
DeepSeek-R1 的强化学习方案中,其亮点之一在于通过 GRPO 算法取代RLHF 常用的 PPO,通过尽可能减少人类标注数据,设计纯 RL 的环境,用精心设计的奖励机制来训练模型自己学会推理。 那么什么是PPO、GRPO,其产生的背景、…...
第十六届蓝桥杯大赛软件赛省赛 Python 大学 B 组 部分题解
题面链接Htlang/2025lqb_python_b 个人觉得今年这套题整体比往年要简单许多,但是G题想简单了出大问题,预估50101015120860,道阻且长,再接再厉 A: 攻击次数 答案:103?181?题目没说明白每回合是…...
5分钟搭建一个在线客服网站!免费!
快速搭建在线客服网站完整教程 本文将手把手教你如何从零开始搭建一个功能完善的在线客服系统,整个过程简单快速,适合新手操作。 一、服务器选购指南 注册雨云账号 如果您尚未注册雨云账号,可以通过以下方式获取优惠: 注册链…...
【测试】-- 测试用例
文章目录 1. 测试用例1.1 概念 2. 设计测试用例的万能公式2.1 常规思考逆向思维发散性思维2.2 万能公式 3. 设计测试用例的方法3.1 具体的设计⽅法3.1.1 等价类3.1.2 边界值3.1.3 正交法3.1.3.1 如何设计正交表 3.1.4 判定表法3.1.4.1 根据判定表法设计测用例的步骤 3.1.5 场景…...
深度剖析循环码解码:从原理到纠错实践
一、引言 循环码作为线性分组码中的重要一员,凭借其出色的纠错和检测能力,在通信领域得到了广泛应用。本文将深入探讨循环码的解码过程,详细阐述其纠错和检测的机理。 二、循环码基础回顾 2.1 循环码的定义与性质 循环码是一类具有循环特性的线性分组码,即任一码组循环…...
MySQL面试题及答案,2025最新整理
文章目录 前言1.InnoDB 与 MyISAM 在事务和索引方面有哪些主要区别?2.简述 MySQL 的事务隔离级别及其对并发问题的解决情况?3.在使用 MySQL 索引时,如何避免索引失效,提高查询效率? 前言 本文围绕 MySQL面试题及答案&…...
ubuntu 安装pyllama教程
最近在研究motion gpt,有一个环节是需要下载gpt 13b,然后老是安装不上去pyllama,ubuntu的版本为: $ lsb_release -a LSB Version: core-11.1.0ubuntu4-noarch:security-11.1.0ubuntu4-noarch Distributor ID: Ubuntu Description…...
Python operator 模块介绍
operator 模块是 Python 标准库中的一个模块,它提供了一系列与 Python 内置运算符对应的函数。这些函数可以用于替代一些常见的运算符操作,在某些场景下能让代码更加简洁、高效,还能方便地用于函数式编程。以下是对 operator 模块的详细介绍: 1. 导入模块 使用 operator …...
[python] reduce
reduce 是 Python 中的一个高阶函数,用于对可迭代对象(如列表、元组等)中的元素进行累积计算,最终返回一个单一的结果。它位于 functools 模块中,使用时需要先导入: from functools import reduce 核心功能…...
ESP32与STM32哪种更适合初学者?
目录 1、ESP32:物联网时代的“网红” 2、STM32:工业界的“常青树” 3、到底谁更容易? 无论是刚入坑的小白,还是想扩展技术栈的老鸟,在选择主力 MCU 时,学习曲线绝对是重要的考量因素。ESP32 以其强大的 …...
AI编程案例拆解|基于机器学习XX评分系统-前端篇
文章目录 1. 定价使用DeepSeek估价小红书调研 2. 确定工作事项利用DeepSeek生成具体工作事项 3. 和客户沟通约会议沟通确定内容样式 4. 前端部分设计使用DeepSeek生成UI设计在Cursor中生成并提问前置条件开始编程 关注不迷路,励志拆解100个AI编程、AI智能体的落地应…...
十六届蓝桥杯嵌入式省赛直播基本外设驱动
前言 本文是准备2025年4月123日嵌入式蓝桥杯直播内容准备的一篇文章 1.创建工程 选择芯片 开启烧录引脚 开启高速时钟 主频设置成80回车 工程名称(不能有中文,包括路径) 考试的时候最下面哪一行取消勾选USE 然后选择这个文件夹打开 勾选几个…...
c_c++八股(一)
C/C static 静态局部变量(函数内) 使局部变量的生命周期延长至整个程序运行期间,但作用域仍限于函数内 变量只初始化一次,下次调用函数时保留上次的值 void counter() {static int count 0; // 只初始化一次count;printf(&quo…...
通过websocket给服务端发送订单催单提醒消息
controller层 GetMapping("/reminder/{id}")public Result Remainder(PathVariable("id") Long id){orderService.remainder(id);return Result.success();} 实现类 Overridepublic void remainder(Long id) {Orders ordersDB orderMapper.getById(id);…...
【NumPy科学计算引擎:从基础操作到高性能实践】
目录 前言:技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析关键技术模块说明技术选型对比 二、实战演示环境配置核心代码实现运行结果验证 三、性能对比测试方法论量化数据对比结果分析 四、最佳实践推荐方案 ✅常见错误 ❌调试技巧 五、应用…...
day24 学习笔记
文章目录 前言一、OpenCV简介二、计算机中的图像表达1.图像表示2.图像存储 三、基本图像操作1.创建窗口2.读取图像3.显示图像4.保存图像5.创建黑白图像6.图像切片7.图像大小调整 四、读取视频 前言 目前,我开始学习OpenCV的相关概念和操作。通过今天的学习…...
OFDM CP 对解码影响
OFDM符号间会存在ISI,为了解决该问题在符号间插入了循环前缀,可以说这个发明是OFDM能够实用的关键,在多径信道中CP可以有效的解决符号间干扰。3GPP中对于不同SCS 定义了不同的CP长度: 5G Cyclic Prefix (CP) Design -5G Physical …...
Compose笔记(十六)--ExoPlayer
这一节了解一下Compose中的ExoPlayer的使用,我们在开发Android应用时,经常会使用到播放器这个ExoPlayer框架就相对成熟,易上手,现简单总结如下: 1. ExoPlayer 核心类 ExoPlayer 是 ExoPlayer库的核心类,负责管…...
拖拽实现3
import React, { useState, useRef, useEffect } from ‘react’; import ‘./ImageList.css’; const ImageList () > { const images [ ‘https://picsum.photos/300/200?random1’, ‘https://picsum.photos/300/200?random2’, ‘https://picsum.photos/300/200?r…...
OracleLinuxR5U5系统重启后启动数据库oracle23ai
1、切换到oracle用户 [rootOracleLinux-R9-U5 ~]# su oracle2、查看oracle是否配置了ORACLE_SID [oracleOracleLinux-R9-U5 root]$ cd ~ [oracleOracleLinux-R9-U5 ~]$ cat .bash_profile3、输出内容如下: [oracleOracleLinux-R9-U5 ~]$ cat .bash_profile # .ba…...
`offset_mapping` 是什么
offset_mapping 是什么 offset_mapping是 transformers 库中分词器(tokenizer)在进行分词操作时返回的一个重要信息,它用于建立原始文本中的字符位置和分词后标记(tokens)之间的映射关系。借助 offset_mapping&#x…...
数据结构(1)
算法代码如下: #include <iostream> typedef int DataType; void Reverse(DataType a[], int n, DataType b[] ){for(int i 0; i < n; i) {b[i] a[n - 1 - i];} } int main() {const int n 5; DataType a[n] {1, 2, 3, 4, 5}; DataType b[n]; Reverse…...
Linux 第三讲 --- 基础指令(三)
前言: 在前面我们已经讲了有十几个Linux的基础指令,今天我们再补充几个常用的基础指令,为后面的学习做准备 。 目录 前言: 一、两个与时间相关的指令 1.date指令 演示 : 时间戳 设置时间 2、cal指令 演示&#x…...
HotSpot虚拟机中对象的访问定位机制是怎样的?
HotSpot虚拟机中对象的访问定位机制 在HotSpot虚拟机中,对象的访问定位主要通过 直接指针(Direct Pointer) 实现。这种方式以性能优化为核心,结合内存布局和运行时机制,确保高效的对象数据访问。以下是详细分析&#…...
pjsip 呼叫自定义头协议(pjsua)
我们想和远端设备进行信令交互的时候可以进行自定头部协议带上数据,进行解析处理一些特殊功能,这样可以减少我们再用其他信令交互才能处理一些特殊功能。 1.1 SIP消息结构SIP消息由以下几部分组成: 起始行(Start-Line) 头部字段(Header Fields) 空行(CRLF) 消息体(Me…...
黑马点评redis改 part 2
02.商户查询缓存 比如说那么这是因为这种数据读写的能力远远的低于预算能力,所以说计算机性能受到了一个限制。所以为了解决这个问题,人们就在CPU的内部添加了一个缓存,什么意思?就是CPU会把经常需要读写的一些数据放到CPU的缓存…...
C语言复习笔记--指针(5)
在之前的复习中我们已经简单的了解了qsort函数的使用方式,下面我们接着上回的继续复习,来看看qsort函数的模拟实现. qsort函数的模拟实现 这里因为我们刚刚学习了冒泡排序,所以就先用冒泡排序来改装一下qsort函数,让冒泡排序也可以排各种各样类型的元素. #define _CRT_SECURE_…...
设计模式——工厂模式学习总结
假设现在一个场景: 某物流公司,当前有以下业务:汽车运输和轮船运输。客户可以选择任一运输方式进行运输。 此时,应该如何使用代码将这个现实业务进行抽象实现? 在没有学习工厂模式前,我是这样想的&#x…...
《Python星球日记》第27天:Seaborn 可视化
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏:《Python星球日记》,限时特价订阅中ing 目录 一、Seabor…...
获取1688商品评论接口的实践指南
在电商领域,商品评论是消费者了解产品真实情况的重要依据,对于商家来说,分析商品评论可以帮助他们改进产品、优化服务。1688作为国内知名的B2B电商平台,提供了丰富的商品评论接口,方便开发者获取商品的评论数据。本文将…...
c++中继承方面的知识点
继承的概念及定义 继承的概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段,它允许程序员在保 持原有类特性的基础上进行扩展,增加功能,这样产生新的类,称派生类。继承呈现了面向对象 程序设计的层次结…...
青少年编程考试 CCF GESP图形化编程 一级认证真题 2025年3月
图形化编程 一级 2025 年 03 月 一、单选题(共 10 题,每题 3 分,共 30 分) 1、2025 年春节有两件轰动全球的事件,一个是 DeepSeek 横空出世,另一个是贺岁片《哪吒 2》票房惊人,入了全球票房榜。…...
Openlayers:flat样式介绍
在前段时间我在使用WebGL矢量图层时接触到了flat样式,我对其十分的感兴趣,于是我花了几天的时间对其进行了了解,在这篇文章中我将简单的介绍一下flat样式的使用方式以及我对其的一些理解。 一、了解flat样式 1.什么是flat样式? …...
[特殊字符] 第十三讲 | 地统计模拟与空间不确定性评估
📘 专栏:科研统计方法实战分享 | 地学/农学人的数据分析工具箱 ✍️ 作者:平常心0715 🎯 关键词:地统计模拟、随机函数、空间不确定性、条件模拟、SGS、R语言 🧠 核心导语 在现实数据有限、空间异质性强的…...
Vue接口平台学习六——接口列表及部分调试页面
一、实现效果图及界面布局简单梳理 整体布局分左右,左边调试,右边显示接口列表 左侧: 一个输入框按钮;下面展示信息,大部分使用代码编辑器就好了,除了请求体传文件类型需要额外处理。然后再下方显示响应信…...
Spring 中的 @Cacheable 缓存注解
1 什么是缓存 第一个问题,首先要搞明白什么是缓存,缓存的意义是什么。 对于普通业务,如果要查询一个数据,一般直接select数据库进行查找。但是在高流量的情况下,直接查找数据库就会成为性能的瓶颈。因为数据库查找的…...
Context的全面解析:在不同技术应用中的通用作用与差异
Context的全面解析:在不同技术应用中的通用作用与差异 引言: 在软件开发中,“Context”这个概念被广泛使用。它不仅限于某个特定的技术或编程语言,实际上,Context 作为一种抽象的设计模式,贯穿在许多开发领…...
机器学习(2)——逻辑回归
文章目录 1. 什么是逻辑回归?2. 核心思想3. 逻辑回归模型的训练:4. 参数估计(损失函数与优化)4.1. **损失函数:**4.2. 极大似然估计(MLE)4.3. 优化方法 5. 决策边界6. 模型评估指标7 . 假设与适用条件8. 逻…...
Sentinel核心算法解析の滑动窗口算法
文章目录 前言一、回顾:快速失败二、固定窗口算法三、滑动窗口算法三、源码体现3.1、ArrayMetric的初始化3.2、addPass3.2.1、currentWindow3.2.2、wrap.value().addPass 总结 前言 在Sentinel中,流控效果有快速失败、预热和排队等待。其中快速失败的统计…...
ida 使用记录
文章目录 伪代码-汇编hexstring快捷键 伪代码-汇编 流程图界面——F5——伪代码界面——再点Tab——流程图界面——再按空格——汇编界面流程图界面——空格——汇编界面 hex view - open subviews - hex dump string view - open subviews - string快捷键: sh…...
数字统计:
1.题意: 在1~N之间寻找d出现的个数,然后输出即可;例如:d2,N23,那么满足条件的有2,12,21,23,所以是4个 2.思路: 1.暴力枚举(不可能):可以先写出来去找规律 …...
【架构师从入门到进阶】第五章:DNSCDN网关优化思路——第八节:网关-注入攻击与预防
【架构师从入门到进阶】第五章:DNS&CDN&网关优化思路——第八节:网关-注入攻击与预防 SQL注入攻击的原理攻击者获取数据库表结构预防SQL注入的方法 这篇文章我们来看SQL注入。 SQL注入攻击的原理 SQL注入攻击的原理呢?我们来简单说…...
波束形成(BF)从算法仿真到工程源码实现-第五节-线性约束最小方差波束形成算法(LCMV)
一、概述 本节我们讨论线性约束最小方差波束形成算法(Linearly constrained minimum variance,LCMV)波束形成算法,包括原理分析及代码实现。 更多资料和代码可以进入https://t.zsxq.com/qgmoN ,同时欢迎大家提出宝贵的建议,以共同探讨学习。 …...
Java类加载机制原理与应用
前言 Java 中的类加载机制(Class Loading Mechanism)是 JVM 架构中的核心组成部分,它控制着类从编译后的 .class 文件被加载到内存、并最终变成可以被程序使用的对象的全过程。涉及类加载器、双亲委派模型及加载过程。下面我们从原理到实际应…...
android display 笔记(十三)surfcaeflinger的DEQUEUED、QUEUED
BufferQueue 的核心作用 BufferQueue 是 生产者-消费者模型 的核心组件,协调应用(生产者)和 SurfaceFlinger(消费者)之间的图形缓冲区(GraphicBuffer)传递。 生产者:应用࿰…...
数据库预热
介绍 Database Warm-up 🧠 一句话理解 数据库是在应用启动阶段,提前建立数据库连接 或 执行轻量 SQL 操作,从而 加快首个请求的响应速度 的一种优化手段 🎯 为什么需要数据库预热? 当 FastAPI 或其他 Web 服务刚启…...
C语言—程序的编译和链接
1. 翻译环境和运行环境 在ANSI S的任何一种实现中,存在两个不同的环境 第一种是翻译环境,在这个环境中源代码被转换为可执行的机器指令(二进制指令) 第二种是执行环境,它用于实际执行代码 2. 翻译环境 翻译环境是由…...
Neo4j GDS-10-neo4j GDS 库中相似度算法介绍
neo4j apoc 系列 Neo4j APOC-01-图数据库 apoc 插件介绍 Neo4j GDS-01-graph-data-science 图数据科学插件库概览 Neo4j GDS-02-graph-data-science 插件库安装实战笔记 Neo4j GDS-03-graph-data-science 简单聊一聊图数据科学插件库 Neo4j GDS-04-图的中心性分析介绍 Ne…...
Unity 动画
Apply Root Motion 勾选的话就会使用动画片段自带的位移 Update Mode (动画重新计算骨骼位置转向缩放的数值): Normal : 随Update走,每次Update都计算Animate Physics :与 fixed Update() 同步࿰…...
【位运算】只出现一次的数字 II
文章目录 137. 只出现一次的数字 II解题思路一:借用数组的位运算解法二:不使用数组的位运算 137. 只出现一次的数字 II 137. 只出现一次的数字 II 给你一个整数数组 nums ,除某个元素仅出现 一次 外,其余每个元素都恰出现 **…...