当前位置：首页 > news >正文

关于大语言模型的困惑度（PPL）指标优势与劣势

news 来源：原创 2025/7/19 11:40:00

1. 指标本身的局限性

与人类感知脱节：
PPL衡量的是模型对词序列的预测概率（基于交叉熵损失），但低困惑度未必对应高质量的生成结果。例如：
- 模型可能生成语法正确但内容空洞的文本（PPL低但质量差）；
- 创造性表达（如诗歌、隐喻）可能因概率分布分散导致PPL升高，但实际质量优秀。
Tokenization 依赖性：
PPL对分词方式敏感。例如，使用不同分词器（如BPE vs WordPiece）的模型之间无法直接比较PPL值，导致跨模型评估失效。
长文本评估失效：
在生成长文本时，局部词的低困惑度可能掩盖全局逻辑矛盾（如剧情连贯性、事实一致性），而这些关键问题无法通过PPL反映。

2. 大模型任务的多样化

从“预测”到“生成”的范式转变：
早期语言模型（如GPT-2）主要聚焦文本补全，PPL足够衡量预测能力；而现代大模型（如GPT-4、Claude）需处理对话、推理、编程等复杂任务，需更针对性的评估指标：
- 对话质量：使用人类偏好评分（如Chatbot Arena的Elo评分）；
- 代码生成：通过单元测试通过率（如HumanEval基准）；
- 知识推理：采用精确匹配（EM）或链式思维（CoT）准确性。
多模态扩展：
支持图像、音频的多模态大模型（如Gemini、GPT-4o）需要跨模态对齐评估，而PPL仅适用于纯文本场景。

3. 训练目标的演进

超越最大似然估计（MLE）：
大模型常通过强化学习（RLHF）、对比学习（如DPO）等方式微调，这些方法直接优化人类偏好或任务表现，而非最小化PPL。例如：
- RLHF通过奖励模型直接优化生成结果的有用性、安全性；
- DPO通过偏好数据对调整生成分布，与PPL的目标函数产生偏离。
指令微调的影响：
指令微调（Instruction Tuning）使模型更关注任务完成度，而非单纯预测下一个词，导致PPL与最终性能相关性降低。

4. 实际应用场景的驱动

领域特异性需求：
在医疗、法律等垂直领域，专业术语的正确性和逻辑严谨性比PPL更重要。例如：
- 医疗问答需评估事实准确性（通过专家审核）；
- 法律文本生成需检查条款引用正确性。
安全与合规性：
大模型需规避有害内容生成，相关评估（如毒性评分、偏见检测）无法通过PPL实现，需专门工具（如Perspective API）。

5.替代性评估体系的崛起

综合评估框架：
- HELM（Holistic Evaluation of Language Models）：从准确性、鲁棒性、公平性等12个维度评估；
- BigBench：涵盖数学推理、语义理解等200+任务。
人类中心评估：
- 众包评分（如MTurk）：直接收集人类对生成质量的反馈；
- 基于LLM的自动评估：使用GPT-4作为裁判员（如AlpacaEval 2.0）。
动态基准测试：
- 竞技场式评估（如LMSys Chatbot Arena）：通过模型对战生成排名；
- 动态对抗数据集（如Dynabench）：持续更新测试集防止过拟合。

6.PPL的剩余使用场景

尽管PPL不再是核心指标，但仍用于特定场景：

预训练阶段监控：在无监督预训练时，PPL可快速反映模型收敛状态；
消融实验对比：比较不同架构/超参数对语言建模能力的影响；
低资源领域适配：在数据稀缺场景（如小语种），PPL仍是低成本评估手段。

总结

PPL的退场反映了AI评估范式的深刻变革：从单一的概率预测转向以任务完成度、人类价值和安全性为核心的多维评估体系。这种转变不仅推动了大模型技术的发展，也迫使研究者重新思考“智能”的本质——不再局限于对训练数据的复现能力，而是解决真实世界问题的综合能力。

关于大语言模型的困惑度（PPL）指标优势与劣势

1. 指标本身的局限性与人类感知脱节： PPL衡量的是模型对词序列的预测概率（基于交叉熵损失），但低困惑度未必对应高质量的生成结果。例如： 模型可能生成语法正确但内容空洞的文本（PPL低但质量差）…...

编程日记 2025/7/19 11:40:00

[Spring AOP 8] Spring AOP 源码全流程总结

Spring AOP总结更美观清晰的版本在：Github 前面的章节： [Spring AOP 1] 从零开始的JDK动态代理 [Spring AOP 2] 从零开始的CGLIB动态代理 [Spring AOP 3] Spring选择代理 [Spring AOP 4] Spring AOP 切点匹配 [Spring AOP 5] 高级切面与低级切面&#…...

编程日记 2025/7/13 9:41:57

通信网络编程——JAVA

1.计算机网络 IP 定义与作用 ：IP 地址是在网络中用于标识设备的数字标签，它允许网络中的设备之间相互定位和通信。每一个设备在特定网络环境下都有一个唯一的 IP 地址，以此来确定其在网络中的位置。分类 ：常见的 IP 地址分为 I…...

编程日记 2025/7/19 18:42:41

支持向量机算法

支持向量机（Support Vector Machine，SVM）作为机器学习领域中一颗耀眼的明星，凭借其卓越的分类与回归能力，在众多算法中独树一帜。它宛如一位精准的边界守护者，通过巧妙地构建超平面，将不同类别的…...

编程日记 2025/7/20 11:02:13

Redis集群模式、持久化、过期策略、淘汰策略、缓存穿透雪崩击穿问题

Redis四种模式单节点模式架构：单个Redis实例运行在单台服务器。优点： 简单：部署和配置容易，适合开发和测试。低延迟：无网络通信开销。缺点： 单点故障&…...

编程日记 2025/7/20 10:34:15

【WPF】Opacity 属性的使用

在WPF（Windows Presentation Foundation）中，Opacity 属性是定义一个元素透明度的属性，其值范围是从 0.0（完全透明）到 1.0（完全不透明）。由于 Opacity 是在 UIElement 类中定义的&…...

编程日记 2025/7/19 11:09:28

编程题 02-线性结构3 Reversing Linked List【PAT】

文章目录题目输入格式输出格式输入样例输出样例题解解题思路完整代码编程练习题目集目录题目 Given a constant K K K and a singly linked list L L L, you are supposed to reverse the links of every K K K elements on L L L. For example, given L being 1 → …...

编程日记 2025/7/19 18:42:41

集成指南：如何采用融云 Flutter IMKit 实现双端丝滑社交体验

在移动应用开发领域，跨平台框架的广泛应用已成为一种趋势。融云跨平台方案持续升级，近期正式上线 Flutter IMKit，uni-app IMKit 也将紧随其后向广大开发者开放。覆盖两大跨平台核心框架，一套代码即可支持 Android、iOS 双端丝滑…...

编程日记 2025/7/19 21:50:56

使用vite重构vue-cli的vue3项目

一、修改依赖首先修改 package.json，修改启动方式与相应依赖移除vue-cli并下载vite相关依赖，注意一些peerDependency如fast-glob需要手动下载 # 移除 vue-cli 相关依赖 npm remove vue/cli-plugin-babel vue/cli-plugin-eslint vue/cli-plugin-rout…...

编程日记 2025/7/16 16:40:20

LeetCode 2094.找出 3 位偶数：遍历3位偶数

【LetMeFly】2094.找出 3 位偶数：遍历3位偶数力扣题目链接：https://leetcode.cn/problems/finding-3-digit-even-numbers/ 给你一个整数数组 digits ，其中每个元素是一个数字（0 - 9）。数组中可能存在重复元素。你…...

编程日记 2025/7/20 11:01:04

FLASH闪存（擦除、编译）

FLASH闪存文章目录 FLASH闪存1.存储器映像位置2.FLASH简介3.闪存模块组织3.2闪存的共性： 4.FLASH基本结构4.1FLASH解锁4.2使用指针访问寄存器 5.选项字节5.1选项字节编程5.2选项字节擦除 6.相关函数介绍7.读取内部FLASH（实操）7.1接线图7.2工…...

编程日记 2025/7/16 16:55:55

企业即时通讯软件，私有化安全防泄密

在数字化转型与信创战略双重驱动下，企业对即时通讯工具的需求已从基础沟通转向安全可控、高效协同的综合能力。BeeWorks作为一款专为政企设计的私有化即时通讯与协同办公平台，凭借其全链路安全架构、深度国产化适配及灵活的业务集成能力，成为…...

编程日记 2025/7/15 15:27:38

直方图特征结合 ** 支持向量机图片分类

一、核心技术框架 1. 直方图特征原理颜色直方图：统计图像中每个颜色区间（如 RGB 通道）的像素数量，反映颜色分布。HOG 直方图（方向梯度直方图）：统计图像局部区域的梯度方向分布，捕…...

编程日记 2025/7/20 11:07:53

【prometheus+Grafana篇】基于Prometheus+Grafana实现windows操作系统的监控与可视化

💫《博主主页》： 🔎 CSDN主页 🔎 IF Club社区主页 🔥《擅长领域》：擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了…...

编程日记 2025/7/20 11:06:45

PyTorch实战（4）——卷积神经网络(Convolutional Neural Network, CNN)详解

PyTorch实战（4）——卷积神经网络详解 0. 前言1. 全连接网络的缺陷2. 卷积神经网络基本组件2.1 卷积2.2 步幅和填充2.3 池化2.3 卷积神经网络完整流程 3. 卷积和池化相比全连接网络的优势4. 使用 PyTorch 构建卷积神经网络4.1 使用 PyTorch 构建 CNN 架构…...

编程日记 2025/7/19 17:04:50

【Python】Python常用控制结构详解：条件判断、遍历与循环控制

Python提供了多种控制结构来处理逻辑判断和循环操作，包括if-else条件分支、switch替代方案、遍历方法以及循环控制语句break和continue。以下是对这些功能的详细说明及示例： 一、条件判断：if-else与多分支结构单分支结构 • 语法&#xff1…...

编程日记 2025/7/8 17:12:15

在Linux中安装JDK并且搭建Java环境

1.首先准备好JDK的Linux的安装包 2.打开Linux,进入root的文件夹,直接拖入即可 3.输入解压命令,后面指定的是位置（注意不要填写错误，就填写这个） 4.之后进入我们安装的jdk的文件利用pwd命令，展示我们安装的目录，之后…...

编程日记 2025/7/19 8:16:26

理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现

引言：多智能体强化学习（MARL） 多智能体强化学习（MARL）将强化学习拓展到多个智能体在共享环境中相互交互的场景。这些智能体可能相互合作、竞争，或者目标混杂。MARL 引入了单智能体设置中不存在的独特挑战。…...

编程日记 2025/7/17 18:04:41

【AI大语言模型本质分析框架】

AI大语言模型本质分析框架 ——从教育危机到智能本质的七层递进式解构第一层：现象观察——阴（显性危机）与阳（隐性变革）的共存观点1（阴）：AI作弊泛滥，传统教育体系崩溃…...

编程日记 2025/7/17 5:48:29

算法模型部署后_python脚本API测试指南-记录3

API 测试指南服务运行后，可以通过以下方式测试： Curl: curl -X POST -F "file./test_dataset/surface/surface57.png" http://<服务器IP>:9000/api/v1/predictPython 脚本: (参考 svm_request测试.py) import requestsurl http://…...

编程日记 2025/7/18 11:26:36

鸿蒙（HarmonyOS）应用开发入门教程

目录第一章：鸿蒙系统简介 1.1 什么是鸿蒙系统？ 1.2 鸿蒙系统架构第二章：开发环境搭建 2.1 安装DevEco Studio 步骤1：下载与安装步骤2：首次配置步骤3：设备准备 2.2 创建第一个项目第三章：鸿蒙应用开发基础 3.1 核心概念：Ability与AbilitySlice 示例代码…...

编程日记 2025/7/18 22:39:03

MIT XV6 - 1.6 Lab: Xv6 and Unix utilities -uptime

接上文 MIT XV6 - 1.5 Lab: Xv6 and Unix utilities - xargs 第一章持续有点久了，虽然肯定有些特点和细节还没注意到，但这次的主要目的是学习内核部分，决定水一篇然后进入第二章节 uptime 第一章的最后一个实验，选做性质&#xf…...

编程日记 2025/7/14 13:04:05

Python语言在地球科学交叉领域中的应用——从数据可视化到常见数据分析方法的使用【实例操作】

前言： Python是功能强大、免费、开源，实现面向对象的编程语言，Python能够运行在Linux、Windows、Macintosh、AIX操作系统上及不同平台（x86和arm），Python简洁的语法和对动态输入的支持，再加上解释…...

编程日记 2025/7/16 19:52:25

flutter 的 json序列化和反序列化

一、json转实体 Instantly parse JSON in any language | quicktype 二、实体中的toJson和fromJson 实现官方推荐的两个插件(个人觉得一个实体会多一个.g.dart 文件太多了，不喜欢) json_annotation json_serializable 三、使用 dart_json_mapper 实现上面的功…...

编程日记 2025/7/15 17:10:00

什么是数据集市（Data Mart）？

数据集市（Data Mart）是数据仓库（Data Warehouse）的一个子集，专门针对某个特定业务部门、业务线或主题领域，存储和管理该部门或领域所需的特定数据。它通常包含从企业范围的数据仓库中抽取、筛选和汇总的部分…...

编程日记 2025/7/20 5:40:03

从攻击者角度来看Go1.24的路径遍历攻击防御

目录一、具体攻击示例程序攻击步骤： 二、为什么攻击者能成功？ 分析类比理解总结三、TOCTOU 竞态条件漏洞 1、背景：符号链接遍历攻击 2. TOCTOU 竞态条件漏洞 3. 另一种变体：目录移动攻击 4. 问题的核心四、防…...

编程日记 2025/7/18 8:19:22

[ARM][汇编] 01.基础概念

目录 1.全局标号 1.1.使用方法 1.1.1.声明全局标号 1.1.2.定义全局标号 1.1.3.引用全局标号 1.2.全局标号与局部标号的区别 1.3.注意事项 2.局部标号 2.1.使用方法 2.1.1.定义局部标号 2.1.2.跳转引用 2.2.局部标号与全局标号的对比 2.3.注意事项 3.符号定义伪指…...

编程日记 2025/7/15 13:57:27

杭州电商全平台代运营领军者——品融电商

杭州电商全平台代运营领军者——品融电商：以“效品合一”驱动品牌全域增长在电商行业竞争日益白热化的当下，品牌如何突破流量焦虑、实现长效增长？作为中国领先的品牌化电商服务商，杭州品融电商（PINKROON）…...

编程日记 2025/7/19 16:31:03

02.Golang 切片（slice）源码分析（一、定义与基础操作实现）

Golang 切片（slice）源码分析（一、定义与基础操作实现） 注意当前go版本代码为1.23 一、定义 slice 的底层数据是数组，slice 是对数组的封装，它描述一个数组的片段。两者都可以通过下标来访问单个元素。数…...

编程日记 2025/7/17 14:14:11

当生产了~/qt-arm/bin/qmake，可以单独编译其他-源码的某个模块，如下，编译/qtmultimedia

cd ~/qt-everywhere-src-5.15.2/qtmultimedia # 设置交叉编译器和 qmake 路径 export CC/usr/bin/aarch64-linux-gnu-gcc export CXX/usr/bin/aarch64-linux-gnu-g export QMAKE~/qt-arm/bin/qmake # 使用已安装的 qmake export QT_INSTALL_PREFIX~/qt-arm # 安装路径 # 配…...

编程日记 2025/7/18 7:46:01

WordPress 网站上的 jpg、png 和 WebP 图片插件

核心功能 1. 转换 AVIF 并压缩 AVIF 将您 WordPress 网站上的 jpg、png 和 WebP 图片转换为 AVIF 格式，并根据您设置的压缩级别压缩 AVIF 图片。如果原始图片已经是 WordPress 6.5 以上支持的 AVIF 格式，则原始 AVIF 图片将仅被压缩。 2. 转换 WebP 并…...

编程日记 2025/7/15 11:37:05

构造+简单树状

昨日的牛客周赛算是比较简单的，其中最后一道构造题目属实眼前一亮。倒数第二个题目也是一个很好的模拟题目（考验对二叉树的理解和代码的细节） 给定每一层的节点个数，自己拟定一个父亲节点，构造一个满足条件的二叉树。…...

编程日记 2025/7/19 16:00:17

Flask支持哪些日志框架

目录 ✅ Flask 默认支持的日志框架 ✅ 默认推荐：logging（标准库） ✅ 进阶推荐：Loguru（更优雅的日志库） ✅ Flask 日志级别说明（与标准库一致） ✅ 生产环境建议 ✅ 总结推荐在 Flask 中，默认的日志系统是基于 Python 标准库 logging 模块构建的。 ✅ Flask 默认…...

编程日记 2025/7/20 5:16:29

健康养生指南：解锁活力生活的科学密码

健康是人生最珍贵的财富，在快节奏的现代生活中，掌握科学的养生方法至关重要。虽然不借助中医理念，我们依然可以从饮食、运动、睡眠等多个方面入手，打造健康生活方式。合理的饮食是健康的基石。遵循均衡饮食原则，保证每…...

编程日记 2025/7/19 11:16:39

SAR图像压缩感知

SAR图像压缩感知 matlab代码对应着汕大闫老师的那本压缩感知及其应用，有需要的可以看一下！！ SAR图像压缩感知/baboon.bmp , 66616 SAR图像压缩感知/camera.bmp , 66616 SAR图像压缩感知/DWT.m , 1265 SAR图像压缩感知/Gauss.m , 373 SAR图像…...

编程日记 2025/7/14 16:58:09

定时器设计

定时器设计的必要性服务器中的定时器设计具有多方面的必要性，主要体现在以下几个关键方面： 任务调度与管理定时任务执行：服务器常常需要执行一些定时性的任务，如定时备份数据、定时清理缓存、定时更新系统日志等。通过定时器可…...

编程日记 2025/7/15 8:05:40

Spring Boot整合Kafka实战指南：从环境搭建到消息处理全解析

一、环境准备安装 Kafka 下载 Kafka：从 Apache Kafka 官网下载对应版本的 Kafka。解压并启动 Kafka： # 启动 Zookeeper（Kafka 依赖 Zookeeper） bin/zookeeper-server-start.sh config/zookeeper.properties# 启动 Kafka bin/ka…...

编程日记 2025/7/15 23:11:12

(done) 补充：xv6 的一个用户程序 init 是怎么启动的？它如何启动第一个 bash ?

先看 main.c 从函数名来看，比较相关的就 userinit() 和 scheduler() #include "types.h" #include "param.h" #include "memlayout.h" #include "riscv.h" #include "defs.h"volatile static int started 0;//…...

编程日记 2025/7/14 18:05:59

AI 搜索引擎 MindSearch

背景 RAG是一种利用文档减少大模型的幻觉，AI搜索也是 AI 搜索引擎 MindSearch 是一个开源的 AI 搜索引擎框架，具有与 Perplexity.ai Pro 相同的性能。您可以轻松部署它来构建您自己的搜索引擎，可以使用闭源 LLM（如 GPT、Claude…...

编程日记 2025/7/16 1:40:48

HTML简单语法标签（后续实操：云备份项目）

以下是一些 HTML 的简单语法标签及其功能介绍： 基本结构标签 <!DOCTYPE html>：声明文档类型为 HTML5<html>：HTML 文档的根标签<head>：包含文档元数据（如标题、字符编码等）<title>…...

编程日记 2025/7/15 8:46:25

CentOS 和 RHEL

CentOS 和 RHEL（Red Hat Enterprise Linux）关系非常紧密，简而言之： CentOS 最初是 RHEL 的免费、开源克隆版，几乎与 RHEL 二进制兼容。 CentOS 原是 RHEL 的“免费双胞胎”，但已被放弃，现在推荐…...

编程日记 2025/7/20 11:00:35

java-----------＞代理模式

目录什么是代理模式？ 为什么会有代理模式？ 怎么写代理模式？ 实现代理模式总共需要三步： 什么是代理模式？ 代理模式：给目标对象提供一个代理对象，并且由代理对象控制目标对象的引用代理就是…...

编程日记 2025/7/19 10:18:58

Wpf学习片段

IRegionManager 和IContainerExtension IRegionManager 是 Prism 框架中用于管理 UI 区域（Regions）的核心接口，它实现了模块化应用中视图（Views）的动态加载、导航和生命周期管理。 IContainerExtension 是依赖注入&…...

编程日记 2025/7/15 5:43:16

智能手表测试用例文档

智能手表测试用例文档产品名称：智能手表 A1 版本号：FW v1.0.0 测试负责人：[填写] 编写时间：2025-xx-xx 文档状态：初次版本 📁 测试用例结构说明字段描述用例编号测试用例唯一编号，如 TC-FUN…...

编程日记 2025/7/19 10:05:47

密码学--希尔密码

一、实验目的 1、通过实现简单的古典密码算法，理解密码学的相关概念 2、理解明文、密文、加密密钥、解密密钥、加密算法、解密算法、流密码与分组密码等。二、实验内容 1、题目内容描述 ①定义分组字符长度 ②随机生成加密密钥，并验证密钥的可行性 …...

编程日记 2025/7/17 1:41:42

配置Hadoop集群-集群配置

以下是 Hadoop 集群的核心配置步骤，基于之前的免密登录和文件同步基础，完成 Hadoop 分布式环境的搭建： 1. 集群规划假设集群包含 3 个节点： master：NameNode、ResourceManagerslave1：DataNode、NodeMana…...

编程日记 2025/7/18 1:06:27

第三方软件测评中心分享：软件功能测试类型和测试工具

在数字化时代，软件测试已成为确保产品质量的重要环节。功能测试作为软件测试中的核心部分，关注于软件产品是否按预期功能正常运作。软件功能测试可以按不同的方式进行分类，主要包括以下几种类型： 　　1.正功能测试：验…...

编程日记 2025/7/19 9:47:10

Profibus DP主站与Modbus RTU/TCP网关与海仕达变频器轻松实现数据交互

Profibus DP主站与Modbus RTU/TCP网关与海仕达变频器轻松实现数据交互 Profibus DP主站转Modbus RTU/TCP（XD-MDPBm20）网关在Profibus总线侧实现主站功能，在Modbus串口侧实现从站功能。可将ProfibusDP协议的设备（如：海…...

编程日记 2025/7/18 1:09:25

多视角系统,视角之间的切换，输入操作。无人机Pawn视角的实现

一.创建自己的PlayerController。它相当于是灵魂，穿梭在不同Pawn之间。也即是切换视角。不同输入的响应也写在这里。这样即使，都有鼠标操作，也能区分。避免了代码的重复耦合。也可以叫做视角系统。 class LZJGAMEMODE_API ALZJPlayerControl…...

编程日记 2025/7/15 21:35:42

[学习]RTKLib详解：ionex.c、options.c与preceph.c

RTKLib详解：ionex.c、options.c与preceph.c 本文是 RTKLlib详解系列文章的一篇，目前该系列文章还在持续总结写作中，以发表的如下，有兴趣的可以翻阅。 [学习] RTKlib详解：功能、工具与源码结构解析 [学习]RTKLib详解&…...

编程日记 2025/7/18 13:07:09