AI烘焙大赛中的算法:理解PPO、GRPO与DPO的罪简单的方式
🧠 向所有学习者致敬!
“学习不是装满一桶水,而是点燃一把火。” —— 叶芝
我的博客主页: https://lizheng.blog.csdn.net
🌐 欢迎点击加入AI人工智能社区!
🚀 让我们一起努力,共创AI未来! 🚀
## 🧐 作者开场白:当数学公式遇上厨房烟火 "各位看官,是时候给这些高深莫测的算法概念松松土了!我翻遍了arXiv上那些让人头秃的论文,发现它们不是在堆砌数学公式,就是在用更复杂的数学公式解释上一个数学公式。今天,本AI厨神就要用最接地气的烘焙大赛来拆解这些算法,保证让您看得津津有味,连隔壁卖煎饼的王大妈都能听懂!当然啦,硬核读者老爷们也别急着走——文末附上了原论文传送门:PPO、GRPO、DPO。不过先说好,看完那些公式要是头秃了,可别来找我索赔植发费用哦~"
🍰 关键术语翻译局:米其林后厨黑话手册
1. 策略模型 → 烘焙选手
想象一个穿着厨师服、头顶高帽的AI选手,每天都在后厨疯狂烤制500个戚风蛋糕。它的任务就是不断尝试新配方,期待有一天能登上《厨神争霸》的舞台。
2. 模型参数 → 祖传秘方
这可不是普通的菜谱!里面记载着:“面粉要过筛三次”、“蛋白打发要逆时针搅拌”、“烤箱温度要精确到±1℃”——这些细节决定了你的蛋糕是米其林三星还是黑暗料理。
3. 奖励模型 → 毒舌评委
请想象Gordon Ramsay戴着单边眼镜,用银质餐刀轻轻切开蛋糕:“外皮烤焦了0.3毫米!内馅甜度超标!摆盘毫无艺术感!” —— 每个毒舌点评都在逼着AI选手进步。
4. 价值函数 → 预言家厨神
这位白胡子老师傅会摸着水晶球说:“依老夫看,这个选手三年后必成大器!”——他通过观察选手的学习曲线、创新能力和稳定性来预测未来潜力。
5. KL散度约束 → 防翻车警报器
当AI选手突发奇想要在提拉米苏里加老干妈时,这个警报器就会尖叫:“住手!你想毁了意大利百年甜点的尊严吗?!”
6. 偏好数据 → 吃货评审团
由1000名普通食客组成的评审团,他们可能给出最真实的反馈:“草莓蛋糕比香菜蛋糕好吃100倍!”——虽然不够专业,但代表了大众口味。
图1:PPO、GRPO和DPO的修罗场(来源1、来源2)
🏆 PPO篇:米其林星级特训营
🎭 剧情设定
• 主角:你的AI模型(每天烤500个戚风蛋糕的劳模)
• 教练:米其林三星主厨(参考模型)
• 考官:戴着单边眼镜的美食评论家(奖励模型)
• 预言家:会看面相的厨艺总监(价值函数)
🧑🍳 训练日常
- 初试阶段:AI按标准菜谱烤出第一个蛋糕
- 毒舌点评:“外皮火候差2秒!奶油打发过度!”
- 玄学预测:“不过这个选手三年后有望拿米其林星星”
- 谨慎调整:PPO会控制学习步伐:“今天只准调整0.1%的糖量!”
💣 潜在翻车现场
• 成本爆炸:请米其林评委每小时要花1000美元
• 效率低下:每个蛋糕要等评委细细品味半小时
• 评委偏见:万一遇到个"就爱焦苦味"的评委…
图2:PPO与GRPO的爱恨情仇(来源)
🎪 GRPO篇:烘焙社恐互助会
🌟 创新亮点
• 分组学习:把选手分成"巧克力狂热组"、"抹茶邪教组"等
• 省钱妙招:每组只抽样评审3个代表作
• 去掉玄学:开除那个整天神神叨叨的预言家
🤹 训练趣闻
• 组内偷师:“张师傅的蛋糕更蓬松?偷学!”
• 互相伤害:“李师傅的摆盘更好看?破坏!”
• 评委陷阱:如果评委说"越甜越好",最后全组都得糖尿病
🎯 适用场景
适合预算有限但又要比DPO稳定点的项目,就像学校里的学习小组——虽然比不上私教,但比自学强。
📺 DPO篇:全民烘焙大逃杀
🚀 核心优势
• 民主决策:直接让1000个吃货投票
• 极速迭代:观众说芒果好吃?明天就加三斤!
• 成本杀手:省掉了昂贵的米其林评委
🎭 真人秀剧本
- 第一轮:草莓蛋糕 vs 芒果蛋糕
- 观众投票:61%选择芒果
- 立即调整:把草莓配方扔进垃圾桶
- 第二轮:芒果蛋糕 vs 榴莲蛋糕…
- 灾难现场:遇到"臭豆腐蛋糕爱好者"群体
图3:DPO的民主暴政(来源)
🍻 终极对决:算法三巨头的华山论剑
📊 性能对比表
特性 | PPO | GRPO | DPO |
---|---|---|---|
训练成本 | 💸💸💸(请米其林评委) | 💸💸(小组评审) | 💸(群众投票) |
稳定性 | ⭐⭐⭐⭐(稳步提升) | ⭐⭐⭐(可能内卷) | ⭐⭐(容易跑偏) |
适用场景 | 追求极致效果 | 平衡预算与质量 | 快速迭代产品 |
🧑🏫 AI厨神的忠告
- 土豪之选:PPO适合不差钱的大厂,就像请私教特训奥运选手
- 中庸之道:GRPO是性价比之选,像参加烘焙兴趣班
- 敏捷开发:DPO适合创业公司,虽然可能做出香菜月饼…
🤖 未来展望
也许明年会出现"HPO"(Hybrid Preference Optimization),结合米其林评委的专业性和大众评审的多样性。不过在那之前,各位AI厨师们,请继续在算法的厨房里挥洒汗水吧!记住——即使是失败的蛋糕,也能做成美味的提拉米苏!(这句话是不是很有哲理?快记下来当座右铭~)
AI厨神友情提示:
• 有钱有闲选PPO,想快糙猛选DPO,折中就试GRPO~
• 记住!没有免费的午餐,就像不存在完美的蛋糕配方(除非你穿越回2017年用原始GPT)
相关文章:
AI烘焙大赛中的算法:理解PPO、GRPO与DPO的罪简单的方式
🧠 向所有学习者致敬! “学习不是装满一桶水,而是点燃一把火。” —— 叶芝 我的博客主页: https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区! 🚀 让我们一起努力,共创…...
二分 —— 基本算法刷题路程
一、1.求阶乘 - 蓝桥云课 算法代码: #include <bits/stdc.h> using namespace std; #define ll long long ll check(ll n) {ll cnt0;while(n){cnt(n/5);}return cnt; }int main() {ll k;cin>>k;ll L0,R1e19;while(L<R){ll mid(LR)>>1;if(che…...
内存序问题排查
1 内存序 2 简介 std::memory_order 是 C11 引入的一个枚举类型,用于和 <atomic> 原子操作一起使用,控制多线程环境下内存的可见性和执行顺序。 它的主要作用是:告诉编译器和 CPU,在执行某个原子操作时,哪些内…...
历年跨链合约恶意交易详解(四)——Chainswap20210711
漏洞合约函数 function receive(uint256 fromChainId, address to, uint256 nonce, uint256 volume, Signature[] memory signatures) virtual external payable {_chargeFee();require(received[fromChainId][to][nonce] 0, withdrawn already);uint N signatures.length;r…...
Johnson
理论 全源最短路算法 Floyd 算法,时间复杂度为 O(n)跑 n 次 Bellman - Ford 算法,时间复杂度是 O(nm)跑 n 次 Heap - Dijkstra 算法,时间复杂度是 O(nmlogm) 第 3 种算法被 Johnson 做了改造,可以求解带负权边的全源最短路。 J…...
spring boot + Prometheus + Grafana 实现项目监控
一、引入依赖 <dependencies><!-- Spring Boot Starter Actuator --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-actuator</artifactId></dependency><!-- Micrometer Reg…...
Mythical Beings:第八季即将回归,探索新的神话传承
Mythical Beings是由Tarasca Art & Games开发的、基于Ignis区块链的卡牌收集游戏。自发布以来,这款游戏以其独特的玩法和深厚的神话背景吸引了大量玩家的关注。每张卡牌不仅代表着独特的游戏属性,还融合了丰富的文化和神话故事,使玩家不仅…...
Linux中查看占用端口号的进程信息的方法
在 Linux 中查看占用 ** 端口(eg:1717)**的进程号(PID),可以通过以下命令实现: 方法 1:使用 netstat 命令 sudo netstat -tulnp | grep :1717参数解释: -t:查看 TCP 端口…...
批量将 txt/html/json/xml/csv 等文本拆分成多个文件
我们的文本文件太大的时候,我们通常需要对文本文件进行拆分,比如按多少行一个文件将一个大的文本文件拆分成多个小的文本文件。这样我们在打开或者传输的时候都比较方便。今天就给大家介绍一种同时对多个文本文件进行批量拆分的方法,可以快速…...
爱普生高精度车规晶振助力激光雷达自动驾驶
在自动驾驶技术快速落地的今天,激光雷达作为车辆的“智慧之眼”,其测距精度与可靠性直接决定了自动驾驶系统的安全上限。而在这双“眼睛”的核心,爱普生(EPSON)的高精度车规晶振以卓越性能成为激光雷达实现毫米级感知的…...
Spring Boot 自定义 Redis Starter 开发指南(附动态 TTL 实现)
一、功能概述 本 Starter 基于 Spring Boot 2.7 实现以下核心能力: Redis 增强:标准化 RedisTemplate 配置(JSON 序列化 LocalDateTime 支持)缓存扩展:支持 Cacheable(value “key#60s”) 语法动态设置 TTL配置集中…...
区分CRI、OCI、containerd、Docker、CRI-O、runc等名词概念
这些概念可以分为: 一、容器运行时Container Runtimes a、规范OCI (Open Container Initiative) 定义:OCI 是一个开放标准,用于定义容器格式和运行时的规范。它旨在确保容器镜像的格式和容器运行时的操作方式在不同的实现之间保持兼容性。 •…...
#关于process.env.NODE_ENV 与 import.meta.env 相关了解
process.env.NODE_ENV 在前端 Vue 项目中非常重要,但它其实是个“假象”,在前端它并不是原生就有的变量。下面我从多个角度来给你通俗讲明白它的由来和使用方式 👇 🌐 一、process.env.NODE_ENV 是干嘛用的? 这是 一个…...
R语言赋能气象水文科研:从多维数据处理到学术级可视化
全球气候变化加剧了极端天气与水文事件的复杂性,气象卫星、雷达、地面观测站及水文传感器每天产生TB级时空异质数据。传统研究常面临四大瓶颈: 数据清洗低效:缺失值、异常值处理耗时;时空分析模型构建复杂࿱…...
MySQL 约束(入门版)
目录 一、约束的基本概念 二、约束演示 三、外键约束 (一)介绍 (二)外键约束语法 (三)删除/更新行为 一、约束的基本概念 1、概念:约束是作用于表中字段上的规则,用于限制存储…...
【go】类型断言
接口-类型断言 Type Assertion Type Assertion(中文名叫:类型断言),通过它可以做到以下几件事情 检查 i 是否为 nil(是nil直接抛出panic)检查 i 存储的值是否为某个类型 具体的使用方式有两种ÿ…...
(复看)CExercise_06_1指针和数组_2 给定一个double数组,求平均值,并且返回
题目: 求平均值,给定一个double数组,求平均值,并且返回。 要求使用while循环遍历数组,然后配合"*p"的语法实现。 函数的声明如下: double get_ave(double *arr, int len); 关键点 分析࿱…...
Ubuntu 服务器上运行相关命令,关闭终端就停止服务,怎么才能启动后在后台运行?
环境: Ubuntu 20.04 LTS 问题描述: Ubuntu 服务器上运行相关命令,关闭终端就停止服务,怎么才能启动后在后台运行? bash docker/entrypoint.sh解决方案: bash docker/entrypoint.sh 脚本在后台运行&…...
ffmpeg提取字幕
使用ffmpeg -i test.mkv 获取视频文件的字幕流信息如下 Stream #0:4(chi): Subtitle: subrip (srt) (default) Metadata: title : chs Stream #0:5(chi): Subtitle: subrip (srt) Metadata: title : cht Stream #0:6(jpn)…...
深入理解Socket编程:构建简单的计算器服务器
一、Socket通信基础 1. Socket通信基本流程 服务器端流程: 创建Socket (socket()) 绑定地址和端口 (bind()) 监听连接 (listen()) 接受连接 (accept()) 数据通信 (read()/write()) 关闭连接 (close()) 客户端流程: 创建Socket (socket()) 连接…...
CPU狂飙900%,该怎么处理
首先,说明一下问题:CPU飙升200% 以上是生产容易发生的场景 场景:1:MySQL进程飙升900% 大家在使用MySQL过程,想必都有遇到过CPU突然过高,或者达到200%以上的情况。 数据库执行查询或数据修改操作时,系统需…...
C++继承完全指南:从语法到设计模式----图解原理+工业级代码示例+陷阱规避
🔮✨⚡️🌌 欢迎来到张有志的量子编程次元 🌌⚡️✨🔮 ▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂ 🛸 核心探索舱 🛸 ⇩⇩⇩ 正在加载未来代码 ⇩⇩⇩ ▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔…...
使用Pholcus编写Go爬虫示例
想用Pholcus库来写一个Go的爬虫程序。首先,我得确认Pholcus的当前状态,因为之前听说过它可能已经不再维护了。不过用户可能还是需要基于这个库的示例,所以得先提供一个基本的框架。 首先,我应该回忆一下Pholcus的基本用法。Pholc…...
R Excel 文件:高效数据处理与可视化工具的完美结合
R Excel 文件:高效数据处理与可视化工具的完美结合 引言 在数据分析和处理领域,R语言因其强大的数据处理能力和丰富的可视化功能而备受青睐。而Excel作为最常用的电子表格软件,其广泛的应用也使得R与Excel的结合成为数据处理与可视化的理想…...
Python设计模式:适配模式
1. 适配模式(Adapter Pattern)详解 适配模式(Adapter Pattern)是一种结构型设计模式,它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说…...
Python设计模式:策略模式
1. 什么是策略模式 策略模式(Strategy Pattern)是一种行为型设计模式,它定义了一系列算法,将每个算法封装起来,并使它们可以互换。策略模式使得算法的变化独立于使用算法的客户。换句话说,策略模式允许在运…...
Unity Internal-ScreenSpaceShadows 分析
一、代码结构 // Unity built-in shader source. Copyright (c) 2016 Unity Technologies. MIT license (see license.txt)Shader "Hidden/Internal-ScreenSpaceShadows" {Properties {_ShadowMapTexture ("", any) "" {} // 阴影贴图纹理&…...
nginx配置oss代理
工作中会有一些时候需要将图片,视频,音频等文件放到oss这种对象存储中进行存储,实现高性能的访问,这种情况叫做动静分离.这里只做了图片的配置,视频以及音频的配置是一样的. 以下是nginx.conf的配置信息,其中还有ssl的加密配置,以及后端服务器的代理模块配置,(这里不用的话可以…...
UML对象图
UML对象图 一、对象图核心概念 对象图(Object Diagram)描述的是系统在某一时刻对象(实例)的状态快照。它关注的是实际对象之间的实例关系,而不是类与类之间的静态结构。主要特点有: 对象(Ob…...
手机不同App音量自动调节软件
软件介绍 在日常使用手机的过程中,大家是不是经常会遇到在不同App之间切换时,需要频繁调整音量的情况呢?这样真的很不方便。而一款名为App Volume Control的软件就能很好地解决这个问题。 App Volume Control借助辅助功能服务,能…...
模板方法模式详解
模板方法模式详解及真实场景解决方案 推荐学习完策略模式和模板方法模式看这个案例: 策略与模板方法模式组合详解 模式定义 模板方法模式是一种行为设计模式,在父类中定义算法的骨架,允许子类在不改变算法结构的情况下重写特定步骤。核心思…...
基于SSM邮件收发管理系统(带源码、论文)
摘要 随着互联网技术的迅速发展和普及,网络通信已经成了人们离不开的通信手段。作为最早出现的网络通信方式还有世界上应用最为广泛的网络服务之一,电子邮件综合了电话通信和传统邮件的特点,具有传播速度快、价格低廉的优良特性。随着技术发…...
1990-2019年各地级市GDP数据
1990-2019年各地级市GDP数据 1、时间:1990-2019年 2、来源:城市年鉴 3、指标:行政区划代码、年份、省份、城市、经度、纬度、地区生产总值(万元) 4、范围:250地级市 5、指标解释:地区生产总值(Gross R…...
Scala相关知识学习总结5
1、多维数组 定义: val arr Array.ofDim[Double](3,4) 表示二维数组中有三个一维数组,每个一维数组有四个元素。 2、列表 List 不可变 List:默认不可变,可创建有序且可重复的列表,可使用:从右向左增加数据…...
【LangChain Agent 】详解,构建自主决策的 LLM 应用
🐇明明跟你说过:个人主页 🏅个人专栏:《深度探秘:AI界的007》 🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是 Lang Chain 2、什么是 Agent 二、LangChain …...
Scala基础知识7
一,可变数组和不可变数组的转换方法: 不可变数组转换为可变数组使用 toBuffer 函数. 可变数组转换为不可变数组使用 toArray 函数。 转换过程中原始数组不会发生变化,而是返回一个新的数组。 二,多维数组 使用 Array of 函数创建多维数组&am…...
vmware、centos: 快照、redis集群克隆、启动异常
问题描述 提示:这里描述项目中遇到的问题: 启动虚拟机报错: 指定的虚拟磁盘需要进行修复 打不开磁盘“D:\Virtual Machines\CentOS 7 64 位\CentOS 7 64 位-000001.vmdk”或它所依赖的某个快照磁盘。 模块“Disk”启动失败。 未能启动虚拟机…...
visual studio断点无法进入
问题背景: 使用VSQt进行编码,新增函数处断点无法进入。 问题排查 查看moc文件,汇编代码以及设置调试选项均不生效。 原因分析 之前无意间进行了排版优化,导致新增的代码未正常编译进去,通过“文件-> 高级保存选…...
CNVD-2025-06046:Google Chrome沙箱逃逸漏洞大揭秘与防护指南
CNVD-2025-06046:Google Chrome沙箱逃逸漏洞大揭秘与防护指南 前言:浏览器界的“越狱”事件 嘿,小伙伴们!今天咱们要聊的不是什么好莱坞大片,而是一出在浏览器世界里真实上演的“越狱”大戏!你没听错&…...
androd的XML页面 跳转 Compose Activity 卡顿问题
解决 XML 点击跳转到 Compose Activity 卡顿问题 当从 XML 布局的 Activity 跳转到 Compose Activity 时出现卡顿现象,这通常是由以下几个原因导致的: 可能的原因及解决方案 1. Compose 首次初始化开销 问题:Compose 框架首次初始化需要时…...
Springboot同时支持不同的数据库,Oracle,Postgresql
关键字 Java,Springboot,Vscode,支持多种数据库 背景环境 我在实际项目开发工程中遇到这样一个问题,用户 A 使用 Oracle 数据库,用户 B 使用 Postgresql 数据库,但是用户 AB 都使用我们的项目。所以项目…...
【计网】TCP协议的拥塞控制与流量控制
拥塞控制与流量控制的区别 流量控制 流量控制主要是控制端到端(发送端和接收端)之间的数据传输量,是局部的机制。 目的:防止发送方发送数据过快导致接收方来不及处理实现方式:通过滑动窗口机制,接收方通…...
Redis - 字典(Hash)结构和 rehash 机制
字典结构 Redis中的字典由dict.h/dict结构表示: typedef struct dict ( //类型特定函数dictType *type;//私有数据 void "privdata;//哈希表 dictht ht[2];//rehash索引 //当rehash不在进行时,值为-1 in trehashidx; } dict; Redis字典所使用的哈希表由dict.h/dictht 结…...
Redis 与 MongoDB 对比分析
Redis 与 MongoDB 对比分析 1. 核心定位 Redis:内存键值数据库,侧重高性能读写和低延迟,常用于缓存、实时分析、消息队列等场景。MongoDB:分布式文档型数据库,侧重灵活的数据模型和大规模数据存储,支持复…...
【愚公系列】《高效使用DeepSeek》058-选题策划
🌟【技术大咖愚公搬代码:全栈专家的成长之路,你关注的宝藏博主在这里!】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主! 👉 江湖人称"愚公搬代码",用七年如一日的精神深耕技术领域,以"…...
解决 Lettuce 在 Redis 集群模式下的故障转移问题
引言 在高可用系统中,故障转移是确保服务不中断的重要机制。当我们使用 Lettuce 作为 Redis 的 Java 客户端时,如何高效地处理故障转移成为一项关键任务。本篇文章将探讨如何在 Redis 集群模式下配置 Lettuce 以优化故障转移。 背景 在初期设置 Lettu…...
Vim搜索和替换
模式 命令模式 操作过程 键入/开始搜索,找到想要搜索的内容后直接回车,此时光标会从搜索框回到编辑器中。 之后可以 使用小写n跳到下一个符合条件的内容,使用大写N跳到上一个搜索的内容。也可以直接使用上下左右按钮调整光标位置。...
【探商宝】 Llama 4--技术突破与争议并存的开源多模态
核心亮点 混合专家架构(MoE)的全面应用 Llama 4 是 Meta 首个全系列采用 MoE 架构 的模型,通过稀疏激活机制显著提升效率。例如: Llama 4 Scout(中杯):16 位专家,17B 活跃参数&#…...
可发1区的超级创新思路(python 实现):一种轻量化的动态稀疏门控网络
首先声明,该模型为原创!原创!原创!且该思路还未有成果发表,感兴趣的小伙伴可以借鉴! 一、应用领域 视频异常检测、生成视频检测。 二、模型解析 该模型由1.关键帧动态选择机制、2.关键帧动态选择机制以及3.关键帧动态选择机制三大核心组件构成,形成端到端的视频异常…...
flink cdc的source数据流如何配置事件时间,如何设置时间语义,分配时间戳并生成水位线
在 Flink CDC 中为 Source 数据流配置事件时间需要结合时间语义设置、时间戳分配和水位线生成三个核心步骤。以下是具体配置方法及注意事项: 1. 设置时间语义 Flink 默认使用处理时间(Processing Time),需显式指定事件时间语义&a…...