当前位置: 首页 > news >正文

AI烘焙大赛中的算法:理解PPO、GRPO与DPO最简单的方式

🧠 向所有学习者致敬!

“学习不是装满一桶水,而是点燃一把火。” —— 叶芝


我的博客主页: https://lizheng.blog.csdn.net

🌐 欢迎点击加入AI人工智能社区!

🚀 让我们一起努力,共创AI未来! 🚀

## 🧐 作者开场白:当数学公式遇上厨房烟火 "各位看官,是时候给这些高深莫测的算法概念松松土了!我翻遍了arXiv上那些让人头秃的论文,发现它们不是在堆砌数学公式,就是在用更复杂的数学公式解释上一个数学公式。今天,本AI厨神就要用最接地气的烘焙大赛来拆解这些算法,保证让您看得津津有味,连隔壁卖煎饼的王大妈都能听懂!

当然啦,硬核读者老爷们也别急着走——文末附上了原论文传送门:PPO、GRPO、DPO。不过先说好,看完那些公式要是头秃了,可别来找我索赔植发费用哦~"


🍰 关键术语翻译局:米其林后厨黑话手册

1. 策略模型 → 烘焙选手

想象一个穿着厨师服、头顶高帽的AI选手,每天都在后厨疯狂烤制500个戚风蛋糕。它的任务就是不断尝试新配方,期待有一天能登上《厨神争霸》的舞台。

2. 模型参数 → 祖传秘方

这可不是普通的菜谱!里面记载着:“面粉要过筛三次”、“蛋白打发要逆时针搅拌”、“烤箱温度要精确到±1℃”——这些细节决定了你的蛋糕是米其林三星还是黑暗料理。

3. 奖励模型 → 毒舌评委

请想象Gordon Ramsay戴着单边眼镜,用银质餐刀轻轻切开蛋糕:“外皮烤焦了0.3毫米!内馅甜度超标!摆盘毫无艺术感!” —— 每个毒舌点评都在逼着AI选手进步。

4. 价值函数 → 预言家厨神

这位白胡子老师傅会摸着水晶球说:“依老夫看,这个选手三年后必成大器!”——他通过观察选手的学习曲线、创新能力和稳定性来预测未来潜力。

5. KL散度约束 → 防翻车警报器

当AI选手突发奇想要在提拉米苏里加老干妈时,这个警报器就会尖叫:“住手!你想毁了意大利百年甜点的尊严吗?!”

6. 偏好数据 → 吃货评审团

由1000名普通食客组成的评审团,他们可能给出最真实的反馈:“草莓蛋糕比香菜蛋糕好吃100倍!”——虽然不够专业,但代表了大众口味。

三巨头对比图
图1:PPO、GRPO和DPO的修罗场(来源1、来源2)


🏆 PPO篇:米其林星级特训营

🎭 剧情设定

主角:你的AI模型(每天烤500个戚风蛋糕的劳模)
教练:米其林三星主厨(参考模型)
考官:戴着单边眼镜的美食评论家(奖励模型)
预言家:会看面相的厨艺总监(价值函数)

🧑🍳 训练日常

  1. 初试阶段:AI按标准菜谱烤出第一个蛋糕
  2. 毒舌点评:“外皮火候差2秒!奶油打发过度!”
  3. 玄学预测:“不过这个选手三年后有望拿米其林星星”
  4. 谨慎调整:PPO会控制学习步伐:“今天只准调整0.1%的糖量!”

💣 潜在翻车现场

成本爆炸:请米其林评委每小时要花1000美元
效率低下:每个蛋糕要等评委细细品味半小时
评委偏见:万一遇到个"就爱焦苦味"的评委…

PPO心酸史
图2:PPO与GRPO的爱恨情仇(来源)


🎪 GRPO篇:烘焙社恐互助会

🌟 创新亮点

分组学习:把选手分成"巧克力狂热组"、"抹茶邪教组"等
省钱妙招:每组只抽样评审3个代表作
去掉玄学:开除那个整天神神叨叨的预言家

🤹 训练趣闻

组内偷师:“张师傅的蛋糕更蓬松?偷学!”
互相伤害:“李师傅的摆盘更好看?破坏!”
评委陷阱:如果评委说"越甜越好",最后全组都得糖尿病

🎯 适用场景

适合预算有限但又要比DPO稳定点的项目,就像学校里的学习小组——虽然比不上私教,但比自学强。


📺 DPO篇:全民烘焙大逃杀

🚀 核心优势

民主决策:直接让1000个吃货投票
极速迭代:观众说芒果好吃?明天就加三斤!
成本杀手:省掉了昂贵的米其林评委

🎭 真人秀剧本

  1. 第一轮:草莓蛋糕 vs 芒果蛋糕
  2. 观众投票:61%选择芒果
  3. 立即调整:把草莓配方扔进垃圾桶
  4. 第二轮:芒果蛋糕 vs 榴莲蛋糕…
  5. 灾难现场:遇到"臭豆腐蛋糕爱好者"群体

DPO狂欢现场
图3:DPO的民主暴政(来源)


🍻 终极对决:算法三巨头的华山论剑

📊 性能对比表

特性PPOGRPODPO
训练成本💸💸💸(请米其林评委)💸💸(小组评审)💸(群众投票)
稳定性⭐⭐⭐⭐(稳步提升)⭐⭐⭐(可能内卷)⭐⭐(容易跑偏)
适用场景追求极致效果平衡预算与质量快速迭代产品

🧑🏫 AI厨神的忠告

  1. 土豪之选:PPO适合不差钱的大厂,就像请私教特训奥运选手
  2. 中庸之道:GRPO是性价比之选,像参加烘焙兴趣班
  3. 敏捷开发:DPO适合创业公司,虽然可能做出香菜月饼…

🤖 未来展望

也许明年会出现"HPO"(Hybrid Preference Optimization),结合米其林评委的专业性和大众评审的多样性。不过在那之前,各位AI厨师们,请继续在算法的厨房里挥洒汗水吧!记住——即使是失败的蛋糕,也能做成美味的提拉米苏!(这句话是不是很有哲理?快记下来当座右铭~)

AI厨神友情提示
• 有钱有闲选PPO,想快糙猛选DPO,折中就试GRPO~
• 记住!没有免费的午餐,就像不存在完美的蛋糕配方(除非你穿越回2017年用原始GPT)

相关文章:

AI烘焙大赛中的算法:理解PPO、GRPO与DPO最简单的方式

🧠 向所有学习者致敬! “学习不是装满一桶水,而是点燃一把火。” —— 叶芝 我的博客主页: https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区! 🚀 让我们一起努力,共创…...

qt自定义信号槽需要注意的事项

在 Qt 中,自定义信号和槽是与事件和对象交互的核心机制之一。创建自定义信号和槽时,有几个重要事项需要注意,以确保它们能够正确工作。以下是一些需要注意的关键点: 1. 信号和槽的声明 信号声明:信号应该在 signals …...

OpenCV--图像轮廓检测

在图像处理与计算机视觉领域,轮廓检测是一项极为关键的技术。轮廓作为物体边界的重要表征,承载了图像中物体的形状、尺寸和位置等关键信息。通过轮廓检测,我们能够提取出图像中物体的轮廓,为后续的物体识别、图像分割、形状分析等…...

从搜索丝滑过渡到动态规划的学习指南

搜索&动态规划 前言砝码称重满分代码及思路solution 1(动态规划)solution 2(BFS) 跳跃满分代码及思路solution 1(动态规划)solution 2 (BFS) 积木画满分代码及思路动态规划思路讲解solution 前言 本文主要是通过一些竞赛真题…...

通用文字识别技术的出现,深刻改变信息的处理方式

在数字化浪潮席卷全球的今天,文字作为人类文明最基础的载体,正经历着一场前所未有的技术革命。通用文字识别(OCR,Optical Character Recognition)技术已经从简单的"图片转文字"工具,进化为能够理…...

linux 下du 和 ls-alh 的区别

我一直以为du -m 可以显示文件大小。发现不对。正确的做法你是用ls -alh 来使用...

【k8s学习之CSI】理解 LVM 存储概念和相关操作

鸟哥的 Linux 私房菜 – Quota, Software RAID, LVM, iSCSI 0 | 理解 vg 相关概念 在 Linux LVM(逻辑卷管理) 中,以下是 partition(分区)、PV(物理卷)、VG(卷组)、LV&am…...

【分享开发笔记,赚取电动螺丝刀】使用STM32F103的hal库,采用PWM+DMA发送方式驱动WS2812的RGB彩灯

简单和大家介绍一下本文章的主要内容:使用STM32F103C8最小系统板,使用STM32 cubeMX 6.14版本生成底层的驱动库、结合定时器的PWM 输出功能、使用DMA发送数据的 方式,驱动WS2812 的RGB三色灯。 本次小的DIY所需的物料:stm32f103c8…...

CubeMX配置STM32VET6实现网口通信(无操作系统版-附源码)

下面是使用CubeMX配置STM32F407VET6,实现以太网通讯(PHY芯片为LAN8720)的具体步骤总结: 一、硬件连接方式: 硬件原理图: 使用外部晶振为PHY芯片提供时钟。 STM32F407VET6 与 LAN8720 采用 RMII 模式连接。…...

一种反激式开关电源设计流程

引:随着生产和技术的发展,对环保和能源的要求也越来越高,开关电源的应用也越来越广泛,开关电源电路结构种类繁多,包括单端转换器和双端转换器。本文介绍一种利用反激式变换电路实现5V开关电源的设计方法,以…...

数据结构实验3.2:链栈的基本操作与括号匹配问题

文章目录 一,问题描述二,基本要求三,算法分析(一)链栈的存储结构设计(二)链栈基本操作的时间复杂度分析(三)括号匹配算法分析 四,示例代码五,实验…...

一周学会Pandas2 Python数据处理与分析-NumPy算术运算和统计计算

锋哥原创的Pandas2 Python数据处理与分析 视频教程: 2025版 Pandas2 Python数据处理与分析 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 算术运算 数组的灵魂就在于可以进行批量的运算而不是要在循环里面进行元素的运算: 示例: …...

2011年-全国大学生数学建模竞赛(CUMCM)试题速浏、分类及浅析

2011年-全国大学生数学建模竞赛(CUMCM)试题速浏、分类及浅析 全国大学生数学建模竞赛(China Undergraduate Mathematical Contest in Modeling)是国家教委高教司和中国工业与应用数学学会共同主办的面向全国大学生的群众性科技活动,目的在于激励学生学习数学的积极性,提高学…...

科普:GBDT与XGBoost比较

本文不去讲GBDT与XGBoost算法的原理及算法本身,而是从应用者的角度,对二者比较,以便选择。 XGBoost是GBDT的“工程化增强版”,在保持Boosting核心思想的同时,通过数学优化(二阶导数、正则化)和工…...

大数据技术之 Scala(5)

以下是今天学习的知识点与代码测试: 一、不可变数组与可变数组的转换 说明 arr1.toBuffer //不可变数组转可变数组arr2.toArray //可变数组转不可变数组 arr2.toArray 返回结果才是一个不可变数组,arr2 本身没有变化arr1.toBuffer 返回结果才是一个可变…...

int 与 Integer 的区别详解

1. 本质区别 特性intInteger类型基本数据类型(Primitive)包装类(Wrapper Class)存储位置栈(或作为对象成员在堆中)堆(对象实例)默认值0null(可能导致 NullPointerExcept…...

初阶数据结构(3)顺序表

Hello~,欢迎大家来到我的博客进行学习! 目录 1.线性表2.顺序表2.1 概念与结构2.2 分类2.2.1 静态顺序表2.2.2 动态顺序表 2.3 动态顺序表的实现初始化尾插头插尾删头删查找指定位置之前插入数据删除指定位置的数据销毁 1.线性表 首先我们需要知道的是,…...

智能DNS解析:解决高防IP地区访问异常的实战指南

摘要:针对高防IP在部分地区无法访问的问题,本文设计基于智能DNS的流量调度方案,提供GeoDNS配置与故障切换代码示例。 一、问题背景 运营商误拦截或线路波动可能导致高防IP在福建、江苏等地访问异常。传统切换方案成本高,智能DNS可…...

瑞芯微RK3568嵌入式AI项目实战:项目方向(三)

基于RK3568的成熟开源项目和实战资源丰富,以下是针对小白的精选推荐及学习路径规划,结合多个开源项目和详细教程,帮助快速入门嵌入式开发: 一、OpenHarmony智能设备开发 1. 凌蒙派-RK3568开发板项目 项目特点:支持Op…...

go游戏后端开发26:红中麻将发牌逻辑

首先,麻将游戏创建房间的逻辑与之前我们做过的“赢三张”创建房间的逻辑是一致的,整体上没有问题。不同之处在于,我们在创建房间时会根据游戏类型来创建对应的“game”,即创建的是麻将的“game”。大家之前写过相关代码&#xff0…...

DataFrame的遍历、排序、去重与分组

一.遍历 1.1 series遍历 import pandas as pds pd.Series([a,b,c,d,e,f],index[1,2,3,4,5,6])for i in s:print(i) a b c d e f 可见,遍历series会直接拿到其中的值 1.2 DataFrame遍历 1.2.1 直接遍历 import pandas as pd data {name: [Alice, Bob, Charlie]…...

QEMU源码全解析 —— 块设备虚拟化(17)

接前一篇文章:QEMU源码全解析 —— 块设备虚拟化(16) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM源码解析与应用》 —— 李强,机械工业出版社 《KVM实战 —— 原理、进阶与性能调优》—— 任永杰 程舟,机械工业出版社...

Java 中使用 File 类创建文件

文章目录 Java 中的 File 类一、文件(File)定义 二、File 类的介绍1 创建文件对象的相关构造器2 createNewFile() 的作用3 获取文件相关信息的常用方法4 目录的操作和文件的删除 Java 中的 File 类 在 Java 中,文件和文件流是处理数据输入/输…...

PowerBI-按钮过滤筛选-宜宾五粮液股份有限公司财务分析

下面为Powerbi制作的财务主题数据分析模版,以可视化的效果展示了某股份有限公司的财务关键指标数据,如营业收入、净利润、毛利率和净利率等。以瀑布图的方式展示了利润表项目金额情况,以树图方式展示了企业资产负债数据。另外图表可以进行筛选…...

【PyQt5】QSS样式表如何使用

在 PyQt5 中,使用 QSS(Qt Style Sheets)来为窗口中的各个控件添加样式是非常方便的,类似于 HTML 中的 CSS。你可以通过 QWidget.setStyleSheet() 方法应用 QSS 样式,或者通过 .qss 文件来设置样式。 基本步骤&#xf…...

数据结构:用生活中的例子解释 AOE 网中活动的最早和最迟开始时间的含义和计算方法

生活实例:装修房子中的活动安排 假设你要装修一套房子,主要流程如下: 拆旧(活动 A,3 天) → 拆旧完成(事件 X)水电改造(活动 B,4 天) → 水电完…...

第二篇:系统分析师——7-11章

目录 一、目标二、计划三、完成情况四、意外之喜(最少2点)1.计划内的明确认知和思想的提升标志2.计划外的具体事情提升内容和标志 五、总结 一、目标 通过参加考试,训练学习能力,而非单纯以拿证为目的。 1.在复习过程中,训练快速阅读能力、掌…...

二十七- Scala

抽象属性和方法 1. 基本语法: 定义抽象类:abstract class Person{} //通过 abstract 关键字标记抽象类 定义抽象属性:val|var name:String //一个属性没有初始化,就是抽象属性 定义抽象方法:def hello():String //…...

轨检探伤专用一体机平板电脑:为铁路安全保驾护航

在铁路轨道检测领域,高效、精准的探伤设备是保障列车安全运行的核心工具。鲁成伟业针对轨检探伤小车的严苛需求,推出了多款高性能专用一体机平板电脑,以创新的技术设计和卓越的适应性,成为行业标杆解决方案。以下从产品性能、技术…...

2018年-全国大学生数学建模竞赛(CUMCM)试题速浏、分类及浅析

2018年-全国大学生数学建模竞赛(CUMCM)试题速浏、分类及浅析 全国大学生数学建模竞赛(China Undergraduate Mathematical Contest in Modeling)是国家教委高教司和中国工业与应用数学学会共同主办的面向全国大学生的群众性科技活动,目的在于激励学生学习数学的积极性,提高学…...

Python数据爬取

一.example1包下的 注意:需要在终端安装pip3 install -i https://requests.readthedocs.io/en/latest/ requests 1.Python网络爬虫初探-get请求 import requests rrequests.get(https://www.baidu.com) print(r.text) r1requests.get(https://www.jd.com) print…...

【详细解析:如何在小程序中实现动态二维码和预约信息展示】

背景介绍 随着小程序的快速发展,二维码已成为很多线上线下场景中必不可少的工具。在这篇文章中,我将分享如何在小程序中实现一个动态生成二维码并展示预约信息的功能。我们会使用 Vue 和 uni-app 框架,结合自定义的 API,来获取预…...

信息学奥赛一本通 1929:【04NOIP普及组】火星人 | 洛谷 P1088 [NOIP 2004 普及组] 火星人

【题目链接】 ybt 1929&#xff1a;【04NOIP普及组】火星人 洛谷 P1088 [NOIP 2004 普及组] 火星人 【题目考点】 1. 深搜回溯 2. STL next_permutation函数 头文件<algorithm> 函数定义&#xff1a;next_permutation(lb, ub, cmp) lb&#xff1a;区间下界&#xff…...

mysql8.0.29 win64下载

mysql win64安装包 mysql win64安装包下载 mysql win64安装包下载 通过网盘分享的文件&#xff1a;mysql 链接: https://pan.baidu.com/s/1sEOl-wSVtOG5gfIRdt5MXw?pwdgi7i 提取码: gi7i...

C++笔记-string(下)

这篇我们自己来简单实现一下string类中的各个接口&#xff0c;来帮助我们更好地理解string类接口的底层原理。 1.构造函数和析构函数 对于构造函数我们要写两种情况&#xff1a;空字符串和非空字符串 因为我们要自己实现string类&#xff0c;所以就不能用std命名空间&#xf…...

Android studio学习之路(六)--真机的调试以及多媒体照相的使用

多媒体应用&#xff08;语言识别&#xff0c;照相&#xff0c;拍视频&#xff09;在生活的各个方面都具有非常大的作用&#xff0c;所以接下来将会逐步介绍多媒体的使用&#xff0c;但是在使用多媒体之前&#xff0c;使用模拟器肯定是不行的&#xff0c;所以我们必须要使用真机…...

Airflow集成Lark机器人

🥭1. 实现目标 🕐 通过自定义函数,实现Lark机器人告警功能 🕐 通过Lark机器人代替邮件数据的发送功能 🥭2.自定义函数实现 from airflow import DAG from airflow.operators.python_operator import PythonOperator from airflow.models import Variable import requ…...

【电视软件】小飞电视v2.7.0 TV版-清爽无广告秒换台【永久更新】

软件介绍 小飞电视是一款电视端的直播软件&#xff0c;无需二次付费和登录&#xff0c;资源丰富&#xff0c;高清流畅。具备开机自启、推送功能、自定义直播源、个性化设置及节目预告等实用功能&#xff0c;为用户带来良好的观看体验。基于mytv开源项目二改&#xff0c;涵盖央…...

2025年- H1-Lc109-160. 相交列表--java版

1.题目描述 2.思路 “双指针切换链表头” 思路一&#xff1a;双指针路径对齐 while (pA ! pB) { pA (pA null) ? headB : pA.next; pB (pB null) ? headA : pB.next; } 让两个指针走相同的总路径长度&#xff01; 设&#xff1a; 链表 A 独有部分长度是 lenA 链表 B …...

《大模型MCP服务协议与多智能体开发实战10讲》课程大纲

以下是针对大模型MCP&#xff08;Model Context Protocol&#xff09;服务协议的多智能体开发系列专栏的10节课课程设计&#xff0c;结合MCP协议特性与多智能体系统的前沿实践&#xff0c;课程结构从协议原理到工程落地&#xff0c;涵盖核心技术、实战案例与前沿趋势&#xff1…...

C++20 范围库:开启现代 C++ 编程的新篇章

文章目录 一、范围库的核心概念&#xff08;一&#xff09;范围&#xff08;Range&#xff09;&#xff08;二&#xff09;视图&#xff08;View&#xff09; 二、范围库的主要特性&#xff08;一&#xff09;范围工厂&#xff08;二&#xff09;范围适配器&#xff08;三&…...

基于 Spring Boot 瑞吉外卖系统开发(二)

基于 Spring Boot 瑞吉外卖系统开发&#xff08;二&#xff09; 员工登录功能实现 员工登录页面login.html存放在/resources/backend/page/login目录下。 启动项目&#xff0c;在浏览器中通过地址“http://localhost:8080/backend/page/login/login.html”访问员工登录页面。…...

Matlab实现鼠群优化算法优化随机森林算法模型 (ROS-RF)(附源码)

目录 1.内容介绍 2.部分代码 3.实验结果 4.内容获取 1内容介绍 鼠群优化算法&#xff08;Rat Swarm Optimizer, ROS&#xff09;是一种基于老鼠觅食行为的新型元启发式优化算法。ROS通过模拟老鼠在寻找食物时的社会互动和群体智能来探索解空间&#xff0c;旨在高效地找到全局最…...

软件工程第四章习题

一、选择题 1.选择题 (1)在需求分析之前有必要进行( &#xff09;工作。 A.程序设计 B.可行性研究 C. E-R 分析 D.行为建模 &#xff08;2)需求分析是一个&#xff08; )&#xff0c;它应该贯穿于系统的整个生命周期&#xff0c;而不是仅仅属于软件生 命周期早期的一…...

第十九:b+树和b-树

优点一&#xff1a; B树只有叶节点存放数据&#xff0c;其余节点用来索引&#xff0c;而B-树是每个索引节点都会有Data域。 优点二&#xff1a; B树所有的Data域在叶子节点&#xff0c;并且所有叶子节点之间都有一个链指针。 这样遍历叶子节点就能获得全部数据&#xff0c;这样…...

SQL Server查询性能下降:执行计划不稳定与索引优化

问题现象&#xff1a; SQL Server 2022 中某些关键查询性能突然下降&#xff0c;执行时间从毫秒级增至数秒&#xff0c;日志中未报错&#xff0c;但查询计划显示低效的索引扫描或键查找。 快速诊断 捕获实际执行计划&#xff1a; -- 启用实际执行计划 SET STATISTICS XML, TIME…...

python mcp server最佳实践

文章目录 1、使用fastmcp包还是mcp包?要不要使用uv创建虚拟环境?编写mcp server代码测试cline配置小Tip2、使用stdio还是sse?其实能做的选择不多: 1、使用fastmcp包还是mcp包? 2、使用stdio还是sse? 1、使用fastmcp包还是mcp包? 个人建议选择后者,因为大模型说,后者…...

STM32看门狗应用实战:独立看门狗与窗口看门狗深度解析(下) | 零基础入门STM32第九十五步

主题内容教学目的/扩展视频看门狗什么是看门狗&#xff0c;原理分析&#xff0c;启动喂狗方法&#xff0c;读标志位。熟悉在程序里用看门狗。 师从洋桃电子&#xff0c;杜洋老师 &#x1f4d1;文章目录 一、看门狗应用架构分析1.1 系统监控流程图1.2 双看门狗应用场景对比 二、…...

操作符详解

1.操作符的分类 算数操作符&#xff1a; 、- 、 * 、 / 、 %移位操作符&#xff1a;>>、 <<位操作符&#xff1a;& 、| 、^ 赋值操作符&#xff1a;、、-、/、%、<<、>>、&、|、^单目操作符&#xff1a;&#xff01;、、- -、&、*、、…...

LeetCode 第41~43题

目录 LeetCode 第41题&#xff1a;缺失的第一个正数 LeetCode 第42题&#xff1a;接雨水 LeetCode 第43题&#xff1a;字符串相乘 LeetCode 第41题&#xff1a;缺失的第一个正数 题目描述&#xff1a; 给你一个未排序的整数数组 nums &#xff0c;请你找出其中没有出现的最小的…...