利用比较预言机处理模糊的偏好数据
论文标题
ComPO:Preference Alignment via Comparison Oracles
论文地址
https://arxiv.org/pdf/2505.05465
模型地址
https://huggingface.co/ComparisonPO
作者背景
哥伦比亚大学,纽约大学,达摩院
动机
DPO算法直接利用标注好的数据来做偏好对齐,无需进行显式的奖励模型训练。然而偏好数据往往是带噪声的,因为很多情况下“偏好”是主观的,不同的标注者可能会对同一个case做出截然相反的判断;此外实践中也可能会使用诸如点击率、好评率等反馈信息作为衡量好坏的依据,同样造成了部分偏好数据的模糊性;
有研究表明,当偏好数据中的好坏示例模棱两可时,模型难以学习正确偏好,甚至可能发生负优化,具体表现为:
- 冗长啰嗦:模型试图面面俱到以确保不犯错。
- 似然分布偏移:原本受偏好的回答概率下降,而原本不被偏好的回答概率上升
于是作者希望对DPO方法进行优化,提高模糊数据的应对能力
本文方法
本文提出“比较预言机偏好优化”(Comparison Oracle Preference Optimization),专门处理标签不够可靠的模糊样本
一、比较预言机
在经典计算理论和优化算法领域,“Oracle(预言机)”一般泛指抽象的黑盒系统,通常具备以下特点:
- 能够解答特定类型的问题,无需说明具体过程或细节。
- 可以快速、高效地给出问题的答案,帮助算法做出决策。
- Oracle的实际实现方式不固定,可能是人工决策、专家系统、或某个已知的有效算法
“比较预言机”简单来说就是一个用于比较两种回答好坏的黑盒系统,它接受一对模型回答作为输入,然后反馈哪个输入更好。在本文中作者通过调用GPT-4来实现预言机
二、零阶优化算法
在数学中:
- 一阶信息指的是梯度(偏导数)。
- 二阶信息指的是Hessian矩阵(即二阶导数)。
- 零阶信息指的是函数值本身。
所以“零阶优化”就是只用函数值来进行优化的方法,它常用于目标函数不可导(比如黑盒目标)或计算代价过高的场景(比如强化学习)
零阶优化有多种具体实现方式,本文采用了“有限差分法”,通过添加微小扰动确定优化方向
∂ f ∂ x i ≈ f ( x + δ e i ) − f ( x ) δ \frac{\partial f}{\partial x_i} \approx \frac{f(x + \delta e_i) - f(x)}{\delta} ∂xi∂f≈δf(x+δei)−f(x)
ComPO在训练时会对当前模型参数施加多次小幅随机扰动,通过预言机比较扰动前后模型对同一偏好对,判断哪些方向让模型更对齐人类偏好,然后据此更新参数。这个过程类似于黑箱函数的梯度估计:不断尝试参数变化并比较结果好坏,从而近似估计偏好目标的梯度方向。作者证明了,在一定光滑性和梯度稀疏性假设下,该迭代方案收敛到偏好目标的极值点是有保证的
三、性能优化
直接按上述方案优化一个数十亿参数的LLM并不现实,作者为此引入了一系列工程技巧来降低计算开销、提高训练稳定性:
- 限制优化范围: 算法仅对模型输出层权重进行随机扰动和更新,而非调整全量参数
- 梯度归一化与裁剪: 在根据多次随机试探得到偏好提升方向后,算法对估计的更新向量进行归一化处理,并只保留大于某阈值的方向信号,这样能使更新是保持稀疏性、包含主要信号,有助于稳定训练过程,避免因为噪声扰动导致模型参数无谓抖动。
- 自适应步长与跳过策略: 算法动态调整每轮参数更新幅度:如果多次扰动中有相当比例的方向都被预言机判定为改进偏好,则使用较大学习步长更新;反之如果有效信号很少则跳过该轮更新,从而确保面对噪声的鲁棒性与收敛过程的稳定性
四、两阶段训练流程
考虑到并非所有偏好数据都难以学习,作者将ComPO与现有DPO方法结合,对不同难度的数据分阶段训练。具体步骤如下:
-
偏好数据拆分: 首先用一个参考模型对偏好数据进行评估,将数据划分为“清洁”和“有噪”两部分。划分标准是看参考模型对于每个偏好对的判断是否信心足够:如果模型对偏好对中优胜回答的预测概率明显高于劣回答(对数概率差超过阈值),则认为该偏好对是清晰明确的;反之则记为有噪的
-
清洁样本对齐: 对划分出的清洁偏好对,采用DPO进行训练,得到一个初步对齐的模型(记为DPO_clean)
-
噪声样本微调: 在第2步基础上,应用ComPO专门微调有噪声的偏好对
实验效果
测试基准:AlpacaEval 2、MT-Bench、Arena-Hard
评测方法:GPT-4 as judge,比较被测模型与参考答案哪一个更优
评测指标:胜率(WR)、长度控制胜率(LC,对输出长度归一化后再衡量模型质量,以避免模型通过啰嗦取胜)
实验结论:
- 整体性能提升: 在多个模型和评测基准上,加入ComPO的模型明显优于仅用原有直接对齐方法的模型
- 缓解冗长倾向: 应用ComPO后模型输出的Length-Controlled胜率显著提高,这表明模型不再为讨好评分而啰嗦作答
- 减轻似然偏移问题: 通过对比训练前后的模型输出概率分布,作者发现ComPO能够显著降低不被偏好回答的生成概率,同时提升被偏好回答的概率。这与之前直接优化方法中报告的反常情况形成鲜明对比,表明ComPO在很大程度上消除了有噪声样本导致的概率质量错位现象。
- 效率与开销: 得益于输出层微调和梯度截断等设计,ComPO方法在实际算力下是可行的。作者报告他们在30张NVIDIA A40 GPU上对9B规模模型运行ComPO算法,每轮采用约1600~1800次随机扰动采样即可取得收敛效果。此外作者还发现,如果仅使用100条噪声偏好数据运行ComPO也能观察到模型性能的提升,这表明哪怕很少量的棘手偏好反馈,经过精细对齐也足以带来显著收益
相关文章:
利用比较预言机处理模糊的偏好数据
论文标题 ComPO:Preference Alignment via Comparison Oracles 论文地址 https://arxiv.org/pdf/2505.05465 模型地址 https://huggingface.co/ComparisonPO 作者背景 哥伦比亚大学,纽约大学,达摩院 动机 DPO算法直接利用标注好的数据来做偏好对…...
《数据库原理》部分习题解析
《数据库原理》部分习题解析 1. 课本pg196.第1题。 (1)函数依赖 若对关系模式 R(U) 的任何可能的关系 r,对于任意两个元组 t₁ 和 t₂,若 t₁[X] t₂[X],则必须有 t₁[Y] t₂[Y],则称属性集 Y 函数依赖…...
【HCIA】浮动路由
前言 我们通常会在出口路由器配置静态路由去规定流量进入互联网默认应该去往哪里。那么,如果有两个运营商的路由器都能为我们提供上网服务,我们应该如何配置默认路由呢?浮动路由又是怎么一回事呢? 文章目录 前言1. 网络拓扑图2. …...
基于机器学习的卫星钟差预测方法研究HPSO-BP
摘要 本文研究了三种机器学习方法(BP神经网络、随机森林和支持向量机)在卫星钟差预测中的应用。通过处理GPS和GRACE卫星的钟差数据,构建了时间序列预测模型,并比较了不同方法的预测性能。实验结果表明,优化后的BP神经…...
机器学习中分类模型的常用评价指标
评价指标是针对模型性能优劣的一个定量指标。 一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标。 本文将详细介绍机器学习分类任务的常用评价指…...
AI 检测原创论文:技术迷思与教育本质的悖论思考
当高校将 AI 写作检测工具作为学术诚信的 "电子判官",一场由技术理性引发的教育异化正在悄然上演。GPT-4 检测工具将人类创作的论文误判为 AI 生成的概率高达 23%(斯坦福大学 2024 年研究数据),这种 "以 AI 制 AI&…...
langchain学习
无门槛免费申请OpenAI ChatGPT API搭建自己的ChatGPT聊天工具 https://nuowa.net/872 基本概念 LangChain 能解决大模型的两个痛点,包括模型接口复杂、输入长度受限离不开自己精心设计的模块。根据LangChain 的最新文档,目前在 LangChain 中一共有六大…...
蓝桥杯 10. 全球变暖
全球变暖 原题目链接 题目描述 你有一张某海域 N x N 像素的照片: . 表示海洋# 表示陆地 例如如下所示: ....... .##.... .##.... ....##. ..####. ...###. .......在照片中,“上下左右”四个方向上连在一起的一片陆地组成一座岛屿。例…...
OpenTiny icons——超轻量的CSS图标库,引领图标库新风向
我们非常高兴地宣布 opentiny/icons 正式发布啦! 源码:https://github.com/opentiny/icons(欢迎 Star ⭐) 官网:https://opentiny.github.io/icons/ 图标预览:https://opentiny.github.io/icons/brow…...
python使用OpenCV 库将视频拆解为帧并保存为图片
python使用OpenCV 库将视频拆解为帧并保存为图片 import cv2 import osdef video_to_frames(video_path, output_folder, frame_prefixframe_, interval1, target_sizeNone, grayscaleFalse):"""将视频拆分为帧并保存为图片参数:video_path (str): 视频文件路径…...
[论文阅读]ControlNET: A Firewall for RAG-based LLM System
ControlNET: A Firewall for RAG-based LLM System [2504.09593] ControlNET: A Firewall for RAG-based LLM System RAG存在数据泄露风险和数据投毒风险。相关研究探索了提示注入和投毒攻击,但是在控制出入查询流以减轻威胁方面存在不足 文章提出一种ai防火墙CO…...
机器学习 --- 数据集
机器学习 — 数据集 文章目录 机器学习 --- 数据集一,sklearn数据集介绍二,sklearn现实世界数据集介绍三,sklearn加载数据集3.1 加载鸢尾花数据集3.2 加载糖尿病数据集3.3 加载葡萄酒数据集 四,sklearn获取现实世界数据集五&#…...
在Ubuntu服务器上部署Label Studio
一、拉取镜像 docker pull heartexlabs/label-studio:latest 二、启动容器 (回到用户目录,例:输入pwd,显示 /home/<user>) docker run -d --name label-studio -it -p 8081:8080 -v $(pwd)/mydata:/label-st…...
机器学习07-归一化与标准化
归一化与标准化 一、基本概念 归一化(Normalization) 定义:将数据缩放到一个固定的区间,通常是[0,1]或[-1,1],以消除不同特征之间的量纲影响和数值范围差异。公式:对于数据 ( x ),归一化后的值…...
用vue和go实现登录加密
前端使用CryptoJS默认加密方法: var pass CryptoJS.AES.encrypt(formData.password, key.value).toString()使用 CryptoJS.AES.encrypt() 时不指定加密模式和参数时,CryptoJS 默认会执行以下操作 var encrypted CryptoJS.AES.encrypt("明文&quo…...
服务器制造业中,L2、L6、L10等表示什么意思
在服务器制造业中,L2、L6、L10等是用于描述服务器生产流程集成度的分级体系,从基础零件到完整机架系统共分为L1-L12共12个等级。不同等级对应不同的生产环节和交付形态,以下是核心级别的具体含义: L2(Level 2…...
mysql8常用sql语句
查询结果带行号 -- 表名为 mi_user, 假设包含列 id ,address SELECT ROW_NUMBER() OVER (ORDER BY id) AS row_num, t.id, t.address FROM mi_user t ; SELECT ROW_NUMBER() OVER ( ) AS row_num, t.id, t.address FROM mi_user t ; 更新某列数…...
多模态RAG与LlamaIndex——1.deepresearch调研
摘要 关键点: 多模态RAG技术通过结合文本、图像、表格和视频等多种数据类型,扩展了传统RAG(检索增强生成)的功能。LlamaIndex是一个开源框架,支持多模态RAG,提供处理文本和图像的模型、嵌入和索引功能。研…...
汽车工厂数字孪生实时监控技术从数据采集到三维驱动实现
在工业智能制造推动下,数字孪生技术正成为制造业数字化转型的核心驱动力。今天详细介绍数字孪生实时监控技术在汽车工厂中的应用,重点解析从数据采集到三维驱动实现的全流程技术架构,并展示其在提升生产效率、降低成本和优化决策方面的显著价…...
深度解码双重订阅用户:高价值流量池的掘金指南
在流量红利消退的当下,内容平台与电商平台的竞争已进入白热化阶段。数据显示,2023年全球用户平均每日切换应用频次超过200次,但仅有3%的用户愿意为多个平台持续付费。这3%的群体——“双重订阅用户”,正成为商业价值最高的流量金矿…...
MATLAB Simulink在Autosar和非Autosar工程下的开发流程
软件开发有两种方法:自上而下和自下而上。自上而下就是从整体出发去设计各个模块和模块间的接口,要求架构设计人员对产品功能非常清楚;自下而上就是从一个一个模块出发去设计,进而组成一个整体。自下而上可能会带来冗余代码过多和…...
使用DevEco Studio性能分析工具高效解决鸿蒙原生应用内存问题
目录 一、内存问题的识别与初步判断 1.1 内存问题的常见表现 1.2 使用 DevEco Profiler 的实时监控功能 1.2.1 打开 Profiler 工具 1.2.2 监控内存变化 1.2.3 判断内存异常 1.2.4 示例代码:模拟内存泄漏 二、内存问题的定界与定位 2.1 使用 Snapshot/Allocation 模板分…...
AI视频生成工具开发与搭建:从技术到应用的全方位指南
随着AI技术的飞速发展,视频创作的门槛被大幅降低。无论是个人用户还是企业开发者,都能通过AI工具实现照片转动态、视频爆改创意、小程序开发等多样化需求。本文将从技术开发、工具应用及行业趋势三个维度,深度解析AI视频生成的核心技术与实践…...
【android bluetooth 框架分析 02】【Module详解 7】【VendorSpecificEventManager 模块介绍】
1. 背景 我们在 gd_shim_module 介绍章节中,看到 我们将 VendorSpecificEventManager 模块加入到了 modules 中。 // system/main/shim/stack.cc modules.add<hci::VendorSpecificEventManager>();在 ModuleRegistry::Start 函数中我们对 加入的所有 module…...
Docker环境下的Apache NiFi安装实践踩坑记录
引言:由于最近用到数据同步,故打算采用中间件工具来做数据同步,谁知第一步部署Apache NiFi环境就耽搁了好久,其中遇到一些问题,故记录下来部署成功记录 问题1:HTTPS访问 HTTP ERROR 400 Invalid SNI问题2:…...
flutter Stream 有哪两种订阅模式。
Flutter 中的 Stream 有两种订阅模式: 单订阅模式 (Single Subscription) 只能有一个订阅者(listen 只能调用一次),后续调用会抛出异常。数据仅在订阅后开始传递,适用于点对点通信场景(如文件读取流…...
删除购物车中一个商品
一. 删除购物车中一个商品 删除商品时我们要考虑一个问题,当商品数量等于1时,删除商品就直接将其从数据库中删除即可。但是当数量大于1时,删除商品就是让商品数量-1。因此我们在删除一个商品时首先要判断该商品在购物车中的数量。 Controlle…...
EF Core 数据库迁移命令参考
在使用 Entity Framework Core 时,若你希望通过 Package Manager Console (PMC) 执行迁移相关命令,以下是常用的 EF Core 迁移命令: PMC 方式 ✅ 常用 EF Core PMC 命令(适用于迁移) 操作PMC 命令添加迁移Add-Migra…...
5月13日day24日打卡
元组和OS模块 知识点回顾: 元组可迭代对象os模块 作业:对自己电脑的不同文件夹利用今天学到的知识操作下,理解下os路径。 元组 元组的特点: 有序,可以重复,这一点和列表一样元组中的元素不能修改…...
[51单片机]---DS18B20 温度检测
1,DS18B20 2,DS18B20时序 void ds18b20_reset() {//ds18b20复位信号 拉低总线750us后释放总线DS18B20_PORT 0; delay_10us(75); DS18B20_PORT 1; delay_10us(2);}//为啥需要检测模块?当我们发生了复位,根据时序图,d…...
Win11 + Visual Studio 2022 + FLTK 1.4.3 + Gmsh 4.13.1 源码编译指南
一、编译环境准备 本文档详细记录了在 Windows 11 系统下,使用 Visual Studio 2022(版本 17)编译 FLTK 1.4.3 和 Gmsh 4.13.1 的完整过程。目标是帮助开发者顺利完成库的编译,并实现基本的功能测试。 二、编译 FLTK 1.4.3 2.1 …...
AUTOSAR图解==>AUTOSAR_TPS_ECUResourceTemplate
AUTOSAR ECU资源模板详解 基于AUTOSAR R4.4.0标准规范 目录 1. 简介 1.1 ECU资源模板的范围1.2 ECU资源模板概述 2. 一般硬件描述 2.1 硬件描述实体2.2 硬件类型2.3 硬件元素2.4 硬件引脚和引脚组2.5 硬件连接2.6 硬件类别定义 3. 硬件类型特定描述 3.1 硬件元素类别3.2 硬件引…...
如何在设计阶段考虑 Python 服务的可伸缩性,避免后期的重构
在如今的软件开发世界里,变化是唯一不变的主题。用户量可能一夜之间从几十人暴增到几十万,业务需求可能在半年内翻天覆地,技术栈也可能因为新工具的出现而需要调整。而作为开发者,尤其是用 Python 打造服务的开发者,我们常常会面临一个绕不过去的问题:如何让我们的服务在…...
ExoPlayer 如何实现音画同步
在解释这个问题之前,先讲一下 ExoPlayer 中音频播放的三种输出模式。 第一种是PCM模式(普通播放模式)。这是最基本的播放模式,音频以PCM(脉冲编码调制)数据形式处理,可以通过音频处理器进行各种…...
C++中void*知识详解和注意事项
一、void* 是什么? 在 C/C 中,void* 表示一个通用指针类型(generic pointer),可以指向任意类型的对象,但 不能直接解引用或进行算术运算,必须先进行类型转换。 void* ptr; // 可以指向任意类型…...
ssl 中 key 和pem 和crt是什么关系
.pem 文件(通用容器格式) 作用:PEM(Privacy-Enhanced Mail)是一种文本格式,可以存储 证书、私钥、中间证书 等。 特点: 以 -----BEGIN XXX----- 和 -----END XXX----- 包裹内容(如…...
CSS可以继承的样式汇总
CSS可以继承的样式汇总 在CSS中,以下是一些常见的可继承样式属性: 字体属性:包括 font-family (字体系列)、 font-size (字体大小)、 font-weight (字体粗细)、 font-sty…...
菜狗的脚步学习
文章目录 一、pdf到h文件转换并恢复二、三、 一、pdf到h文件转换并恢复 编写一个bat,将当前文件的.pdf文件后缀改为.h文件,然后将当前文件下的.h文件全部打开,再依次关闭,待所有.h文件都关闭后,再将.h文件改为.pdf后缀…...
latex公式格式
几个公式只标一个序号 \begin{equation}\begin{aligned}yX\\y2x\\y3x,\end{aligned} \end{equation}要想公式的等号对齐则用下面的格式 若想实现三个公式等号对齐且只编一个号,用 equation 包裹 aligned 环境即可 \begin{equation}\begin{aligned}y&X\\y&…...
在Babylon.js中实现完美截图:包含Canvas和HTML覆盖层
在现代Web 3D应用开发中,Babylon.js作为强大的3D引擎被广泛应用。一个常见的需求是实现场景截图功能,特别是当场景中包含HTML覆盖层(如UI控件、菜单等)时。本文将深入探讨如何在Babylon.js中实现完整的截图方案。 问题背景 这里我是希望实现一个渐隐的…...
LeetCode 648 单词替换题解
LeetCode 648 单词替换题解 题目描述 题目链接 在英语中,我们有一个叫做「词根」的概念,可以缩短其他单词的长度。给定一个词典和一句话,将句子中的所有单词用其最短匹配词根替换。 解题思路 哈希表 前缀匹配法 预处理词典:…...
从虚拟现实到混合现实:沉浸式体验的未来之路
摘要 近年来,虚拟现实(VR)和增强现实(AR)技术的快速发展,为沉浸式体验带来了前所未有的变革。随着技术的不断进步,混合现实(MR)作为VR和AR的融合形态,正在成为…...
基于深度学习的水果识别系统设计
一、选择YOLOv5s模型 YOLOv5:YOLOv5 是一个轻量级的目标检测模型,它在 YOLOv4 的基础上进行了进一步优化,使其在保持较高检测精度的同时,具有更快的推理速度。YOLOv5 的网络结构更加灵活,可以根据不同的需求选择不同大…...
黑马Java基础笔记-10
权限修饰符 修饰符同一个类中同一个包中其他类不同包的子类不同包无关类private√空着不写 (default)√√protected√√√public√√√√ 代码块 局部代码块(了解) public class Test {public static void main(String[] args) {{int a 10;System.out.println(a);}//运行到…...
职坐标AIoT开发技能精讲培训
在人工智能与物联网(AIoT)技术高速迭代的今天,掌握边缘计算、智能设备开发与实时数据处理三大核心模块,已成为开发者突破行业壁垒的关键。职坐标AIoT开发技能精讲培训以技术融合与场景落地为双引擎,从底层硬件协议到上…...
Kafka 4.0版本的推出:数据处理新纪元的破晓之光
之前做大数据相关项目,在项目中都使用过kafka。在数字化时代,数据如洪流般涌来,如何高效处理这些数据成为关键。Kafka 就像是一条 “智能数据管道”,在数据的世界里扮演着至关重要的角色。如果你第一次接触它,不妨把它…...
从0到1上手Kafka:开启分布式消息处理之旅
目录 一、Kafka 是什么 二、Kafka 的基础概念 2.1 核心术语解读 2.2 工作模式剖析 三、Kafka 的应用场景 四、Kafka 与其他消息队列的比较 五、Kafka 的安装与配置 5.1 环境准备 5.2 安装步骤 5.3 常见问题及解决 六、Kafka 的基本操作 6.1 命令行工具使用 6.1.1 …...
以价值为导向的精准数据治理实践,赋能业务决策
在数字化浪潮席卷全球的今天,数据已成为企业最宝贵的资产之一。然而,如何将海量数据转化为驱动业务增长的强大动力,是摆在每个企业面前的难题。某大型国企公司,作为集团金融板块的重要组成部分,在数字化转型过程中&…...
文件相关操作
文本文件 程序运行时产生的数据都属于临时数据,程序一旦运行结束都会被释放 通过文件可以将数据持久化 C的文件操作需要包含头文件 文件分类 文本文件:文件以文本的ASCII码形式存储在计算机中 二进制文件:文件以文本的二进制形式存储在计算…...
在Window上面添加交叉编译链 MinGW+NDK
需要工具 1,minGW Releases niXman/mingw-builds-binaries GitHub 2,ndk包 NDK 下载 | Android NDK | Android Developers 3,python(现在的交叉编译链工具不是.sh,而是.py) python可以根据自己…...