Free Draft Model!Lookahead Decoding加速大语言模型解码新路径
Free Draft Model!Lookahead Decoding加速大语言模型解码新路径
大语言模型(LLMs)在当今AI领域大放异彩,但其自回归解码方式锁死了生成效率。本文将为你解读一种全新的解码算法——Lookahead Decoding,它无需Draft Model就能实现投机采样,加速LLM解码,在多项任务中实现显著提速,为大语言模型的应用带来新突破,快来一探究竟!
论文标题
Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING
来源
arXiv:2402.02057v1 [cs.LG] + http://arxiv.org/abs/2402.02057
博客
https://lmsys.org/blog/2023-11-21-lookahead-decoding/
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁
文章核心
研究背景
在人工智能蓬勃发展的当下,大语言模型(LLMs)凭借其强大的语言理解和生成能力,逐渐成为推动自然语言处理领域进步的核心力量。如今,LLMs被广泛应用于搜索、聊天机器人、代码生成等众多场景 ,这使得低延迟生成高质量文本成为关键需求。然而,当前LLMs普遍采用的自回归解码方式却存在效率瓶颈。一方面,自回归解码每次只能生成一个token,就像逐字书写文章,整体生成时间与解码步骤数紧密相关,生成较长文本时耗时久。另一方面,这种解码方式对现代加速器(如GPU)的并行处理能力利用不足,就好比驾驶一辆高性能跑车却始终低速行驶,造成资源浪费。为了满足应用场景对低延迟的迫切需求,提升自回归解码效率成为该领域亟待攻克的核心难题。
研究问题
-
自回归解码每次仅生成一个令牌(token),整体生成时间与解码步骤数成正比,效率较低。
-
每个解码步骤对现代加速器(如GPU)的并行处理能力利用不足。
-
现有加速方法(如投机解码)常依赖难以获取且缺乏通用性的draft model,限制了投机解码的应用。
主要贡献
1. 设计新算法:提出Lookahead Decoding算法,这是一种无损、并行的解码算法,无需任何辅助模型就能加速LLM推理。
2. 揭示缩放规律:发现该算法能根据每步的log(FLOPs)线性减少解码步骤,在解码步骤数和每步FLOPs之间实现权衡,具有良好的扩展性。
3. 适配高效注意力机制:该算法能受益于最新的内存高效注意力机制(如FlashAttention),且易于在多个GPU上并行化,通过开发分布式CUDA实现提升性能。
4. 多场景验证有效性:在不同设置下对Lookahead Decoding进行评估,证明其在多种数据集和任务上均能有效加速解码过程。
方法论精要
Lookahead Decoding是一种创新的并行解码算法,旨在加速大语言模型(LLMs)的推理过程。它基于对自回归解码的深入理解,通过独特的设计和参数配置,有效提升了解码效率。详细解码过程可参考blog。
1. 核心算法设计:Lookahead Decoding基于雅可比解码(Jacobi decoding)进行改进。雅可比解码可将自回归解码转化为求解非线性系统的过程,但它存在生成令牌位置不准确的问题。Lookahead Decoding则利用雅可比解码一次生成多个令牌的能力,通过维护一个固定大小的2D窗口,在序列和时间两个维度上操作,从雅可比迭代轨迹中并行生成多个不相交的n-gram,这一过程称为前瞻分支(lookahead branch)。同时,引入n-gram pool来缓存生成的n-gram,后续通过验证分支(verification branch)对有前景的n - gram候选进行验证,确保符合LLM的输出分布,若验证通过,则将这些n - gram整合到生成序列中。
2. 关键参数设计
窗口大小W:决定并行解码时向前看的令牌位置数量,即每次在不同位置并行生成新令牌的数量。较大的W值可以增加并行度,但也可能引入更多无效计算,需要根据模型和任务进行调整。
回溯步数N:定义从过去雅可比轨迹中检索n-gram的回溯步数。N越大,模型能利用的历史信息越丰富,但计算复杂度也会相应增加。
最大候选数G:限制验证分支中并行运行的有前景候选数量,用于控制验证成本。通常设置G = W,以平衡生成和验证的资源消耗 。
3. 创新性技术组合
并行生成与验证:将并行生成n-gram和验证n - gram的过程相结合。在生成阶段,通过2D窗口利用过去n - 1步的历史令牌生成多个n-gram;验证阶段,从n-gram pool中查找以当前序列最后一个令牌开头的n-gram,并利用LLM进行并行验证。
与FlashAttention集成:FlashAttention可加速LLMs的训练和推理,但它强制使用因果掩码,不适合Lookahead Decoding的注意力模式。为此,论文将Lookahead Decoding的注意力模式硬编码到FlashAttention中,实现了两者的有效结合,相比基于原生PyTorch的简单实现,能带来约20%的端到端加速。
Lookahead并行性(Lookahead Parallelism):该算法易于在多个GPU上并行化,对于前瞻分支,由于其计算由多个不相交分支组成,可将这些分支分配到不同GPU上,避免推理计算中的通信开销;对于验证分支,将多个n - gram候选分配到不同设备进行独立验证。这种并行方式(LP)与传统的模型并行方法不同,它为每个GPU维护完整的模型副本,虽然需要更多内存,但能在每个解码步骤中实现近乎零通信,更适合推理任务。
4. 实验验证方式:为验证Lookahead Decoding的有效性,论文使用了多种版本的LLaMA - 2和CodeLlama模型,在不同GPU设置下进行实验。数据集涵盖了MT - Bench、GSM8K、HumanEval、MBPP、ClassEval等多种类型,用于测试不同任务下的性能。基线设置包括HuggingFace的贪心搜索实现,以及引入FlashAttention作为更强的基线。在分布式设置中,将Lookahead Parallelism(LP)与张量并行(TP)和流水线并行(PP)进行对比,通过测量单批次推理的吞吐量评估性能。
实验洞察
论文通过一系列实验对Lookahead Decoding算法进行了全面评估,涵盖了不同模型、数据集和任务,以探究其性能优势、效率突破以及核心模块的有效性。
1. 性能优势:在多项实验中,Lookahead Decoding展现出显著的性能提升。在MT - Bench数据集上,相较于HuggingFace的贪心搜索实现,它实现了1.5x - 2.3x的加速 。在代码完成任务中,该算法表现更为出色,加速比可达2.3x。这得益于代码完成任务中重复令牌出现频率较高,使得模型预测相对容易,Lookahead Decoding能更好地发挥其优势。同时,研究发现较小的模型在使用该算法时加速比更高。这是因为Lookahead Decoding通过每步的FLOPs与解码步骤压缩比进行权衡,较大模型由于本身所需FLOPs较多,在相同GPU设置下更容易达到GPU的FLOPs上限,从而压缩解码步骤的能力相对较弱。
2. 效率突破:通过 Lookahead Decoding 算法,能够利用计算资源减少解码步骤,实现推理速度的优化。例如,在多个 GPU 上进行并行计算时,可进一步降低推理延迟。同时,与 FlashAttention 集成后,相比基于原生 PyTorch 的简单实现,能带来约 20% 的端到端加速。
3. 消融研究:研究发现,平衡的前瞻分支和验证分支设置(如 ( W = 15 , N = 5 , G = 15 ) (W = 15, N = 5, G = 15) (W=15,N=5,G=15)能获得较好的加速效果。仅使用最小前瞻分支( W = 1 W = 1 W=1 )时,即使调整 N 和 G 设置,在 MT - Bench 上的加速效果仍不如平衡分支设置。此外,使用提示(prompt)作为参考可以进一步提升 Lookahead Decoding 的性能,已经集成入代码实现中。
相关文章:
Free Draft Model!Lookahead Decoding加速大语言模型解码新路径
Free Draft Model!Lookahead Decoding加速大语言模型解码新路径 大语言模型(LLMs)在当今AI领域大放异彩,但其自回归解码方式锁死了生成效率。本文将为你解读一种全新的解码算法——Lookahead Decoding,它无需Draft Mo…...
Spring AI 实战:第八章、Spring AI Tool Calling之与时俱进
引言:AI的"知识截止日期"尴尬 如果你想问大模型"明天是星期几?",猜猜TA会怎么答复你~ @GetMapping("/tools/simple/test") public String simpleTest() {return chatClient.prompt...
PyTorch数据集与数据集加载
PyTorch中的Dataset与DataLoader详解 1. Dataset基础 Dataset是PyTorch中表示数据集的抽象类,我们需要继承它并实现两个关键方法: from torch.utils.data import Datasetclass CustomDataset(Dataset):def __init__(self, data, labels):""…...
探秘 Git 底层原理:理解版本控制的基石
Git 是一款开源的分布式版本控制系统,在软件开发领域广泛应用,能有效管理项目的版本变更,Git 已经成为了版本控制的代名词。日常使用中,我们通过git commit提交代码,用git push推送变更,这些便捷操作背后&a…...
chili3d调试10 网页元素css node deepwiki 生成圆柱体 生成零件图片
.input是input的外框,.input input是input的内框 沙雕 全部input都换成textarea了 自己的方法用接口定义,把自己的方法pub出去,定义在内部拉出去只是取个值 这其实是mainwindow端pub回来的 窗口pub端把数据pub回 mainwindow端让mainwindow端…...
【计网】互联网的组成
回顾: 互联网(Internet):它是一个专有名词,是一个特定的互连网,它是指当下全球最大的、最开放的、由众多网络相互连接而形成的特定的的互连网,采用TCP/IP协议族作为通信规则。 一、互联网的组成部分 从互联网的工作方…...
Go语言接口实现面对对象的三大特征
一.知识回顾 在 Go 语言中,接口是一种强大的抽象机制,它允许我们定义一组方法签名,任何类型只要实现了这些方法,就被视为实现了该接口。接口的实现是隐式的,这意味着类型不需要显式声明它实现了某个接口,只…...
TS 字面量类型
str是string类型l str2是常量,类型是字面量类型 用途:配合联合类型确定更严谨精确的可选值利恩...
langchain中 callbacks constructor实现
目录 代码代码解释代码结构代码功能 类似例子 代码 from typing import Any, Dict, Listfrom langchain_openai import ChatOpenAI from langchain_core.callbacks import BaseCallbackHandler from langchain_core.messages import BaseMessage from langchain_core.outputs …...
小土堆pytorch--tensorboard的使用
小土堆pytorch--tensorboard的使用 小土堆pytorch--tensorboard的使用0.介绍1.使用tensorboard绘制 y x 等简单函数1.1 相应的代码1.2 对上述代码的解释1.3 可能遇到的问题1.3.1 问题1.3.2 解决方法 2.使用tensorboard加载数据集中的图片2.1 相应代码2.2 对上述代码的解释2.2.…...
从 0 到 1:使用 Jetpack Compose 和智能自动化实现高效 Android UI 开发
现代 Android UI 开发正逐步从命令式 XML 向声明式 Compose 转变。Compose 凭借其简洁、高效、易测试的特点,能够让开发者更专注于界面和业务逻辑,而不必陷入大量模板化的代码。手把手带你构建一个完整的 Todo List 应用,并演示如何借助自动化…...
学习黑客 week1周测 复盘
Day 7 – 周测 & 复盘 今天任务: 完成 10 道快测题,涵盖 Week 1 的核心知识点:《CIA 三要素》、OWASP Top 10、MITRE ATT&CK、NIST RMF、Linux 权限、TCP/IP、网络安全法、“黑客五阶段” 与风险管理。撰写 300 字周总结…...
【五一培训】Day 3
Topic 1:元学习 一、概念:learn to learn 区分少样本学习与元学习 少样本学习(Few-shot learning)是元学习的一个重要应用,它指的是机器能够在仅有少量样本的情况下,成功地学习和泛化到新任务上。在许多现…...
C++继承详讲
1.继承的概念 继承是实现代码复用的手段,它允许程序员在保持基类特性的基础上进行扩展,增加功能,这样产生新的类,称派生类。 2.继承和组合 1.继承体系下,子类对象包含父类的成员。组合体系下,子类对象包含…...
第四节:OpenCV 基础入门-第一个 OpenCV 程序:图像读取与显示
一、引言:为什么选择 OpenCV? 在计算机视觉领域,OpenCV(Open Source Computer Vision Library)是一个开源的、跨平台的计算机视觉库,广泛应用于图像处理、模式识别、机器学习等领域。它支持多种编程语言&a…...
基于PHP实现的easy管理系统
easy管理系统 2.0.1 easy管理系统 是一个多功能的 Web 管理平台,旨在简化项目管理、文件共享和协作流程。它集成了大创项目管理、在线文档生成、代码托管等多种功能,并提供了用户管理、系统设置、日志查看等后台管理能力。 ✨ 功能特性 统一管理平台:…...
ios systeam introduction
Here is an in-depth look at Apple’s iOS, from its inception to its latest major release, covering architecture, core components, security, app lifecycle, development tools, and the headline features of iOS 18. iOS began life as “iPhone OS,” unveiled alo…...
【论文阅读】LLMOPT:一种提升优化泛化能力的统一学习框架
文章目录 第一遍一、摘要二、关键词三、预知识1. 什么是优化泛化问题2. 什么是消融研究3. model alignment(模型对齐) 第二遍:了解论文论点一、研究背景与目的二、相关工作三、LLMOPT框架四、METHODOLOGY(方法论)1. 数据处理2. 学习过程3. 自…...
Prompt多版本测试指南:如何科学评估不同提示词的效果
对于现代AI开发来说,同一个需求,不同的提示表达方式往往会产生截然不同的结果。因此,如何设计、测试和优化提示词成为了一项关键技能。 本文将深入探讨Prompt多版本测试的技术方法,帮助你系统性地评估不同提示词的效果࿰…...
每日c/c++题 备战蓝桥杯(洛谷P1015 [NOIP 1999 普及组] 回文数)
洛谷P1015 [NOIP 1999 普及组] 回文数 题解 题目描述 P1015 回文数 是NOIP 1999普及组的经典模拟题。题目要求如下: 给定一个数N(十进制)和进制K(2≤K≤16),将N转换为K进制表示后,通过以下操…...
最小单调子序列的长度+联通最小乘积
因为题目ICPC是英文版,基于大家都不怎么看的懂的情况下直接给大家进行题目讲解 题目1: 题目分析: 构造一个长度为n的排列 p(里面的数是1-n),不能重复得 max(lis(p),lds(p)) 最小。 其中,lis(p)是 p 的最长递增子序…...
OpenHarmony平台驱动开发(一),ADC
OpenHarmony平台驱动开发(一) ADC 概述 功能简介 ADC(Analog to Digital Converter),即模拟-数字转换器,可将模拟信号转换成对应的数字信号,便于存储与计算等操作。除电源线和地线之外&#…...
数据结构与算法:回溯
回溯 先给出一些leetcode算法题,以后遇见了相关题目再往上增加 主要参考代码随想录 2.1、组合问题 关于去重:两种写法的性能分析 需要注意的是:使用set去重的版本相对于used数组的版本效率都要低很多,大家在leetcode上提交&#x…...
KaiwuDB X 遨博智能 | 构建智能产线监测管理新系统
01 项目背景 遨博智能作为国内协作机器人行业领军企业,深度布局制造、农业、医疗、教育、民生等场景,出货量连续四年蝉联国内第一、世界第二。随着工业自动化的蓬勃发展,遨博智能生产规模不断扩大,先后在常州、淄博等地建设完成…...
高等数学第三章---微分中值定理与导数的应用(§3.6 函数图像的描绘§3.7 曲率)
3.6 函数图像的描绘 一、曲线的渐近线 对于某些函数,其图形向无穷远处延伸时,会越来越趋近于某一条直线,这条直线被称为曲线的渐近线 (Asymptote)。 1. 定义 若曲线 y f ( x ) yf(x) yf(x) 上一点 P ( x , y ) P(x, y) P(x,y) 沿曲线趋…...
【PostgreSQL数据分析实战:从数据清洗到可视化全流程】4.2 数据类型转换(CAST函数/自定义函数)
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 PostgreSQL数据分析实战:数据清洗之数据类型转换(CAST函数/自定义函数)4.2 数据类型转换:让数据「格式正确,类型对…...
docker:制作镜像+上传镜像+拉取镜像
1.dockerfile制作镜像 示例内容: 1.创建一个index.js的文件 console.log("hello world")2.在相同目录下创建名为dockerfile的文件 FROM node:alpine COPY index.js /index.js CMD node /index.js3.构建镜像 docker build -t minterra/hello-docker . …...
信息系统监理师第二版教材模拟题第三组(含解析)
信息系统监理师模拟题第三组(30题) 监理基础理论 信息系统工程监理的性质是( ) A. 服务性、独立性、公正性、科学性 B. 强制性、营利性、行政性、技术性 C. 临时性、从属性、随意性、主观性 D. 单一性、封闭性、被动性、保守性答案:A 解析:监理具有服务性、独立性、公正…...
潮乎盲盒商城系统全开源多级分销推广海报奖品兑换试玩概率OSS云存储多端源码
一、源码描述 这是一套潮乎盲盒商城源码,仿小叮当盲盒商城,后端Laravel框架前端uniappvue,前后端数据库分离,支持四端同步数据(H5小程序等),测试环境: php7.4,mysql5.6,…...
文章记单词 | 第64篇(六级)
一,单词释义 residence [ˈrezɪdəns] n. 住宅;居住;住所;居住期fling [flɪŋ] v. (用力地)扔,掷,抛;猛动(身体或身体部位);急冲&a…...
数据同步实战篇
文章目录 数据同步实战篇1. mysql数据同步1.1 mysql集群部署1.2 数据同步1.2.1 同步复制1.2.2 异步复制1.2.3 半同步复制 2. redis数据同步2.1 redis集群部署2.2 数据同步 3. mq数据同步3.1 mq集群部署3.2 数据同步 4. es数据同步4.1 es集群部署4.2 数据同步 数据同步实战篇 数…...
具身系列——Double DQN算法实现CartPole游戏(强化学习)
完整代码参考: rl/ddqn_cartpole.py 陈先生/ailib - Gitee.com 部分训练得分: Model saved to ./output/best_model.pth New best model saved with average reward: 9.6 Episode: 0 | Train Reward: 25.0 | Epsilon: 0.995 | Best Eval Avg: 9.6…...
以下是在 Ubuntu 上的几款PDF 阅读器,涵盖轻量级、功能丰富和特色工具:
默认工具:Evince(GNOME 文档查看器) 特点:Ubuntu 预装,轻量快速,支持基本标注和书签。 安装:已预装,或手动安装: sudo apt install evince功能全面:Okular&…...
有关水下图像增强的论文
4.21 TEBCF:Real-World Underwater Image Texture Enhancement Model Based on Blurriness and Color Fusion 基于模糊和颜色融合的现实水下图像纹理增强模型 2022年的一篇文章,基于传统方法,基于不同的色彩方法构建了两个新的融合输入。一…...
Raycaster光线投射
Raycaster光线投射 3D虚拟工厂在线体验 描述 光线投射Raycaster,用于进行raycasting(光线投射)。 光线投射用于进行鼠标拾取(在三维空间中计算出鼠标移过了什么物体)。 构造器 Raycaster( origin : Vector3, dire…...
javaEE——单例模式
目录 前言1.概念2. 实现3. 比较和改进总结 前言 本篇文章来介绍单例模式,并讲述在保证线程安全的前提下,单例模式的写法。 1.概念 单例模式是一种设计模式,可以说是写代码的一种模板,如果在一些固定的场景下按照设计模式进行写…...
WSL在D盘安装Ubuntu
目录 前提条件步骤一:查看可用的Linux发行版步骤二:安装Ubuntu 22.04步骤三:导出已安装的Ubuntu到D盘步骤四:注销当前Ubuntu安装步骤五:在D盘导入Ubuntu启动Ubuntu 前提条件 Windows 10或Windows 11系统已启用WSL功能…...
Java并发编程-多线程基础(三)
文章目录 线程间通信线程间通信的核心问题volatile 关键字1. 核心特性2. 使用限制3. 示例 synchronized 关键字1. 核心特性2. 示例 volatile 与 synchronized 的对比Volatile 和 Synchronized 最佳实践 线程间通信 线程间通信的核心问题 多个线程通过共享内存实现信息交换&am…...
React--》掌握react构建拖拽交互的技巧
在这篇文章中将深入探讨如何使用react-dnd,从基础的拖拽操作到更复杂的自定义功能带你一步步走向实现流畅、可控且用户友好的拖拽体验,无论你是刚接触拖拽功能的初学者还是想要精细化拖拽交互的经验开发者,都能从中找到适合自己的灵感和解决方案。 目录 …...
【Qt】常用的类与数据类型
目录 一、Qt常见基本数据类型 二、Qt 字符串类应用 2.1 操作字符串 2.2 查询字符串 三、QMap 类&QHash 类&QVector 类 3.1 QMap 类 3.2 QHash 类 3.3 QVector 类 四、QList 类&QLinkedList 类 4.1 QList 类 4.2 QLinkedList 类 4.3 STL 风格迭代器遍历…...
React实现B站评论Demo
该Demo涉及的技术点 useState函数(数据驱动视图)子组件的封装条件判断回调函数的封装 1、评论数据 {"list": [{"rpid": 3,"user": {"uid": "13258165","avatar": "http://toutiao.…...
从实列中学习linux shell12 通过Shell脚本来优化MySQL数据库性能,特别是慢SQL跟踪和索引优化
在Shell脚本中优化MySQL数据库性能,特别是慢SQL跟踪和索引优化 可以通过以下步骤实现。以下是一个结构化的解决方案,包含示例代码和详细说明: 1. 启用慢查询日志 目标:动态启用慢查询日志并配置参数,收集慢SQL数据。…...
ES6入门---第三单元 模块一:类、继承
补充: prototype 属性使您有能力向对象添加属性和方法。 object.prototype.namevalue <script>function Person(name, age){this.name name;this.age age;}/* Person.prototype.showName function(){return 名字为: ${this.name};};Person.prototype.showA…...
CSS 变量与原生动态主题实现
CSS 变量与原生动态主题实现 CSS 变量基础 CSS 变量(自定义属性)是 CSS 语言的一项强大功能,允许我们在样式表中定义和重用值。与 SCSS 或 LESS 等预处理器中的变量不同,CSS 变量在运行时计算,这意味着它们可以动态更…...
Ubuntu 安装 Docker
安装 Docker 1. 卸载旧版本(如果有) sudo apt-get remove docker docker-engine docker.io containerd runc 2. 更新 APT 包的索引 sudo apt-get update 3. 安装依赖包 sudo apt-get install -y \ca-certificates \curl \gnupg \lsb-release4. 添加…...
SpringMVC——第三章:获取请求数据
假设有这样一个请求:http://localhost:8080/springmvc/register?namezhangsan&password123&emailzhangsanpowernode.com 在SpringMVC中应该如何获取请求提交的数据呢? 在SpringMVC中又应该如何获取请求头信息呢? 在SpringMVC中又应…...
动静态库【Linux操作系统】
文章目录 动静态库制作静态库如何把第三方库安装在Linux系统中,如何使用第3方库方案一:为什么我们之前使用gcc/g编译C/C标准库的时候不用加选项-l xxx呢?方案二:方案三: 为什么不同平台的库不一样呢?动态库…...
Day 4:牛客周赛Round 91
好久没写了,问题还蛮多的。听说这次是苯环哥哥出题 F题 小苯的因子查询 思路 考虑求因子个数,用质因数分解;奇数因子只需要去掉质数为2的情况,用除法。 这里有个比较妙的细节是,提前处理出数字x的最小质因数࿰…...
drawDB:打造高效数据库设计流程
drawDB:打造高效数据库设计流程 drawDB 简介资源链接 核心功能详解1. 直观的实体关系图设计2. SQL 脚本生成3. SQL 导入功能4. 本地化存储与分享功能5. 自定义主题与外观 安装和使用教程本地开发环境搭建构建生产版本Docker 部署基本使用方法 应用场景和实际价值适用…...
【心海资源】子比主题新增注册与会员用户展示功能模块及实现方法
内容改写: 本次分享的是子比主题顶部展示注册用户与会员信息的功能模块及其实现方式。 你可以通过两种方式启用该功能: 直接在后台进入“外观 → 小工具”启用该展示模块,操作简便;也可将提供的代码覆盖至子比主题目录中&#…...