【深度学习】LoRA:低秩适应性微调技术详解
LoRA:低秩适应性微调技术详解
文章目录
- LoRA:低秩适应性微调技术详解
- 1. 引言
- 2. LoRA原理解析
- 2.1 核心思想
- 2.2 数学表达
- 3. LoRA实现细节
- 3.1 适用层选择
- 3.2 缩放因子
- 3.3 初始化策略
- 4. 代码实现示例
- 5. LoRA在实际应用中的优势
- 5.1 内存效率
- 5.2 训练速度
- 5.3 模型部署便利性
- 5.4 任务特化能力
- 6. LoRA的进阶变体
- 6.1 QLoRA
- 6.2 AdaLoRA
- 6.3 LoRA+
- 7. 实践建议
- 7.1 超参数选择
- 7.2 最佳实践
- 8. 总结
- 参考资料
1. 引言
在深度学习领域,预训练大型模型已成为主流方法,但完整微调这些动辄数十亿甚至数千亿参数的模型需要巨大的计算资源。为解决这一问题,研究者们提出了各种参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)方法,而LoRA(Low-Rank Adaptation)作为其中的佼佼者,因其简洁高效的设计理念受到广泛关注。本文将详细介绍LoRA的原理、实现方法以及应用场景。
2. LoRA原理解析
2.1 核心思想
LoRA由微软研究院在2021年提出,其核心思想基于一个关键假设:模型适应过程中的参数更新矩阵通常具有低秩特性。换句话说,虽然预训练模型的权重矩阵维度很高,但在微调过程中,实际有效的参数更新可能集中在一个低维子空间中。
(P.S. 这种想法在主成分分析(PCA)算法中也有体现。关于主成分分析(PCA)算法的介绍,可以参考我的这篇文章:【数学建模】主成分分析(PCA)算法在数学建模中的应用。)
2.2 数学表达
假设原始预训练模型中有权重矩阵 W 0 ∈ R d × k W_0 \in \mathbb{R}^{d \times k} W0∈Rd×k,传统微调会直接更新 W 0 W_0 W0 为 W = W 0 + Δ W W = W_0 + \Delta W W=W0+ΔW。而LoRA的做法是:
- 冻结原始权重 W 0 W_0 W0
- 引入两个低秩矩阵 A ∈ R d × r A \in \mathbb{R}^{d \times r} A∈Rd×r 和 B ∈ R r × k B \in \mathbb{R}^{r \times k} B∈Rr×k,其中 r ≪ min ( d , k ) r \ll \min(d,k) r≪min(d,k)
- 参数更新表示为 Δ W = A B \Delta W = AB ΔW=AB
最终的前向传播计算变为:
h = W 0 x + Δ W x = W 0 x + A B x h = W_0x + \Delta Wx = W_0x + ABx h=W0x+ΔWx=W0x+ABx
这种方式有两个显著优势:
- 大幅减少需要训练的参数量:从 d × k d \times k d×k 降至 ( d + k ) × r (d+k) \times r (d+k)×r
- 推理时可将 Δ W \Delta W ΔW 与 W 0 W_0 W0 合并,不增加额外计算成本
3. LoRA实现细节
3.1 适用层选择
LoRA可以应用于模型中的任何线性变换层,但在实践中通常会选择性地应用。以Transformer架构为例,常见的应用位置包括:
- 注意力机制中的Query、Key、Value投影矩阵
- 前馈网络中的线性层
- 词嵌入层
3.2 缩放因子
为了控制LoRA更新的影响程度,通常会引入一个缩放因子 α \alpha α:
Δ W = α r A B \Delta W = \frac{\alpha}{r}AB ΔW=rαAB
其中 r r r 是秩参数, α \alpha α 是可学习或手动设置的超参数。
3.3 初始化策略
LoRA矩阵的初始化对训练稳定性有重要影响:
- 矩阵 A A A 通常使用高斯分布初始化
- 矩阵 B B B 通常初始化为零矩阵,确保训练初期 Δ W = 0 \Delta W = 0 ΔW=0
4. 代码实现示例
下面是使用PyTorch实现LoRA的简化示例:
import torch
import torch.nn as nnclass LoRALayer(nn.Module):def __init__(self, in_features, out_features, rank=4, alpha=1.0):super().__init__()self.rank = rankself.alpha = alpha# 冻结原始权重self.original_layer = nn.Linear(in_features, out_features)self.original_layer.weight.requires_grad = Falseif self.original_layer.bias is not None:self.original_layer.bias.requires_grad = False# 创建低秩矩阵self.lora_A = nn.Parameter(torch.randn(in_features, rank) * 0.01)self.lora_B = nn.Parameter(torch.zeros(rank, out_features))def forward(self, x):# 原始层输出original_output = self.original_layer(x)# LoRA路径lora_output = (x @ self.lora_A @ self.lora_B) * (self.alpha / self.rank)return original_output + lora_output
5. LoRA在实际应用中的优势
5.1 内存效率
以GPT-3 175B为例,完整微调需要约350GB显存,而使用LoRA(r=4)仅需约1.2GB,降低了99.6%的显存需求。
5.2 训练速度
由于参数量大幅减少,LoRA训练速度通常比全参数微调快2-3倍。
5.3 模型部署便利性
多个LoRA适配器可以共享一个基础模型,只需切换小型适配器即可实现不同任务的模型切换,极大提高了模型部署的灵活性。
5.4 任务特化能力
LoRA在保持基础模型通用能力的同时,能够有效捕获特定任务的知识,在多个下游任务上表现优异。
6. LoRA的进阶变体
6.1 QLoRA
结合量化技术的LoRA变体,将基础模型量化为4位精度,进一步降低内存需求。
6.2 AdaLoRA
自适应分配秩资源的LoRA变体,根据参数重要性动态调整不同层的秩大小。
6.3 LoRA+
在原始LoRA基础上引入非线性激活函数,增强表达能力。
7. 实践建议
7.1 超参数选择
- 秩r:常用值为4、8、16,较大的r提供更强的表达能力但需要更多资源
- 学习率:通常比全参数微调高1-2个数量级
- 缩放因子α:常见取值为1、4、8、16等
7.2 最佳实践
- 优先对注意力层应用LoRA
- 对不同层可使用不同的秩设置
- 结合其他PEFT方法(如Prefix-tuning)可获得更好效果
8. 总结
LoRA作为一种优雅且高效的参数高效微调方法,极大地降低了大模型微调的资源门槛,使个人研究者和小型团队也能参与到大模型的研发中。随着大模型规模的不断增长,LoRA及其变体将在未来继续发挥重要作用。
参考资料
- Hu, E. J., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
- Dettmers, T., et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. arXiv:2305.14314.
- Zhang, R., et al. (2023). AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning. arXiv:2303.10512.
欢迎在评论区分享你使用LoRA的经验或提出问题!如果本文对你有帮助,请点赞收藏,感谢支持!
相关文章:
【深度学习】LoRA:低秩适应性微调技术详解
LoRA:低秩适应性微调技术详解 文章目录 LoRA:低秩适应性微调技术详解1. 引言2. LoRA原理解析2.1 核心思想2.2 数学表达 3. LoRA实现细节3.1 适用层选择3.2 缩放因子3.3 初始化策略 4. 代码实现示例5. LoRA在实际应用中的优势5.1 内存效率5.2 训练速度5.3…...
研发效率破局之道阅读总结(3)工程优化
研发效率破局之道阅读总结(3)工程优化 Author: Once Day Date: 2025年4月22日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 程序的艺术_Once-Day…...
树莓派超全系列教程文档--(40)树莓派config.txt旧版GPIO控制、超频及条件过滤器
树莓派config.txt旧版GPIO控制、超频及条件过滤器 传统GPIO控制enable_jtag_gpio 传统超频选项超频never_over_voltagedisable_auto_turbo 遗留条件过滤器The [HDMI:*] 过滤器 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 传统GPIO控制 &…...
网络基础概念(下)
网络基础概念(上)https://blog.csdn.net/Small_entreprene/article/details/147261091?sharetypeblogdetail&sharerId147261091&sharereferPC&sharesourceSmall_entreprene&sharefrommp_from_link 网络传输的基本流程 局域网网络传输流…...
DES、3DES、SM4 加密算法简介
1. DES(Data Encryption Standard) 设计时间:1975 年(IBM 开发,1977 年被 NIST 采纳为美国联邦标准)。 密钥长度:64 位(实际有效 56 位 8 位校验)。 分组长度…...
如何在 Ansys Icepak AEDT 中设置多个流程以加快仿真速度?
您将学习如何进行正确的设置,以通过增加进程数量来加快仿真速度。 Ansys Icepak AEDT 需要与 Icepak Classic 不同的设置。 要设置要在 Ansys Icepak AEDT 中使用的进程数,您需要按照以下步骤作: 首先,转到“工具 - >选项 - …...
【MCP Node.js SDK 全栈进阶指南】初级篇(2):MCP基础服务器开发
引言 在上一篇文章中,我们详细介绍了MCP开发环境的搭建。本文作为MCP TypeScript-SDK系列的第二篇,将深入探讨MCP基础服务器开发的核心内容,包括服务器创建与生命周期管理、McpServer与Server的区别与选择、各种配置选项的详解,以及基本启动与调试技巧。通过本文学习,你将…...
客户端 AI 与服务器端 AI 的深度比较及实践建议?
1. 性能与延迟 客户端AI(In-Browser AI): // 使用TensorFlow.js在浏览器中进行图像分类 const model await tf.loadLayersModel(local-model/model.json);// 实时摄像头处理 const video document.getElementById(webcam); const…...
【(保姆级教程)Ubuntu24.10下部署Dify】
目录 一、下载Ubuntu二、安装Ubuntu三、在 Ubuntu 上安装 Docker Engine1、设置Docker的apt仓库2、安装 Docker 包 四、在 Ubuntu 上安装 Docker Desktop1、先决条件2、下载最新 DEB 包3、安装软件包4、启动 Docker Desktop5、检查版本 五、克隆 Dify 代码仓库六、启动 Dify1、…...
计算机组成原理---总线系统的详细概述
1.数据传输的两个方式 串行传输和并行传输:串行传输和并行传输 串行:适合的就是传输的距离比较远,这个对应的成本也是比较低的; 并行:传输的效率很高,因为分成了不同的线路,这个适合的就是短距离…...
C++静态与动态联编区别解析
在 C++ 中,静态联编(Static Binding)和动态联编(Dynamic Binding)是两种不同的函数调用绑定机制,核心区别在于确定函数调用的时机和多态性的支持。以下是详细解释: 1. 静态联编(Static Binding) 定义:在编译阶段确定函数调用与具体实现的关系。特点: 由编译器直接确…...
Linux 一些常用的命令记录
常见命令如下 查询内容 find / -name 例如:查找 libstdc.so* find / -name "libstdc.so*" 查询运行环境:/lib64/libstdc.so.6 内容是可以修改为其他的 strings /lib64/libstdc.so.6 | grep CXXABI创建软连接(创建超链接&…...
面试题-链表(1)
1.移除链表元素: 203. 移除链表元素 - 力扣(LeetCode) 删除一个链表中的相同元素。 我这里用的方法只需要将链表遍历一次,就可以删除所有节点。 前后指针法: public ListNode removeElements(ListNode head, int val) { //先判…...
【云馨AI-大模型】Dify 1.2.0:极速集成 SearXNG,畅享智能联网搜索新境界,一键脚本轻松部署SearXNG
SearXNG部署目录创建一键脚本SearXNG访问 Dify SearXNG插件安装SearXNG 插件安装进行授权工作流中进行验证工作流测试 SearXNG部署 目录创建 mkdir -p /data/yunxinai && cd /data/yunxinai 一键脚本 git clone https://gitcode.com/yunxinai/rag-sh.git 一键执行脚…...
Python 设计模式:访问者模式
1. 什么是访问者模式? 访问者模式是一种行为设计模式,它允许你在不改变对象结构的前提下,定义新的操作。通过将操作封装在访问者对象中,访问者模式使得你可以在不修改元素类的情况下,向元素类添加新的功能。 访问者模…...
dify工作流之text-2-e-sql,大模型写sql并执行
市面上有太多的text-to-sql工具,但是我这次突发灵感,为什么不做一个可以执行sql得text2sql呢。 dify的安装我不再赘述,我采用的是win10本地docker部署的方式。 mysql的安装也不再介绍,如有需要还请移步其他博主。 1.dify创建工…...
Neo4j 可观测性最佳实践
Neo4j 介绍 Neo4j 是一款领先的图数据库管理系统,采用图数据模型来表示和存储数据。它以节点、关系和属性的形式组织数据,节点代表实体,关系表示节点间的连接,属性则为节点和关系附加信息。Neo4j 使用 Cypher 查询语言࿰…...
【随手记】jupyter notebook绘制交互式图像
在 Jupyter Notebook 中 魔法命令特点%matplotlib notebook图形是交互式的,可缩放、旋转(适合 3D 图)%matplotlib inline图像静态显示,简单快速,适用于大多数2D图绘制 在 %matplotlib notebook 的 3D 图中,…...
[大模型]AI Agent入门01——AI Agent概念梳理
什么是 Agent(智能体) 定义 Agent 是并能够感知环境,同时可以自主采取行动以实现特定目标的实体。 Agent(代理)是计算机科学中的一个概念,指一种置于某种环境中,能够感知环境中的信息并自…...
【锂电池剩余寿命预测】BiLSTM双向长短期记忆神经网络锂电池剩余寿命预测(Matlab源码)
目录 效果一览程序获取程序内容代码分享研究内容BiLSTM双向长短期记忆神经网络锂电池剩余寿命预测摘要关键词1. 引言1.1 研究背景1.2 研究现状与问题1.3 研究目的与意义2. 文献综述2.1 锂电池剩余寿命预测理论基础2.2 传统预测方法概述2.3 基于深度学习的预测方法进展3. BiLSTM…...
基于机器学习的房租影响因素分析系统
基于机器学习的房租影响因素分析系统 【包含内容】 【一】项目提供完整源代码及详细注释 【二】系统设计思路与实现说明 【三】数据可视化及预测分析的完整流程文档 【技术栈】 ①:系统环境:Python 3.8, Django 4.2 ②:开发环境&#…...
【c++深入系列】:万字string详解(附有sso优化版本的string模拟实现源码)
🔥 本文专栏:c 🌸作者主页:努力努力再努力wz 💪 今日博客励志语录: 当你想放弃时,想想为什么当初坚持走到了这里 ★★★ 本文前置知识: 类和对象(上) 类和对…...
黑马点评redis改 part 4
Redis消息队列实现异步秒杀 一些额外话语:过来人提醒下,不要用stream,可以跳过不看,用专业的消息队列中间件,同时准备好消息队列的八股,否则简陋的stream很容易被问死。 异步持久化还存在消息丢失、消息重复…...
【Python Web开发】01-Socket网络编程01
文章目录 1.套接字(Socket)1.1 概念1.2 类型1.3 使用步骤 Python 的网络编程主要用于让不同的计算机或者程序之间进行数据交换和通信,就好像人与人之间打电话、发消息一样。 下面从几个关键方面通俗易懂地介绍一下: 1.套接字(Socket) 在 Python 网络编…...
『不废话』之Python管理工具uv快速入门
在『不废话』之大模型推理超参数解释『不废话』之动手学MCP 中提到了uv,很多朋友都说没用过,咨询有什么优势? 通常Python新手都会使用conda、miniconda来管理Python环境,稍微高阶水平的会使用pyenv、poetry、virtualenv等工具来管…...
2025年中国高端家电品牌市场分析:海尔Haier、美的Midea、格力GREE三大本土品牌合计占据70%市场份额
一、市场现状:需求升级与结构性增长并存 2024年,中国高端家电市场在复杂的经济环境中展现出“逆势增长”的韧性。尽管全球经济增速放缓,国内家电零售额同比微降0.4%至6957亿元,但高端家电却成为拉动市场的重要引擎。这一现象的背…...
【漫话机器学习系列】217.监督式深度学习的核心法则(Supervised Deep Learning Rule Of Thumb)
监督式深度学习的核心法则:你需要多少数据? 原图作者:Chris Albon 在进行深度学习项目时,我们常常面临一个核心问题:我到底需要多少训练数据?这是许多初学者甚至资深工程师都会困惑的问题。图中给出了一个非…...
OpenCV --- 图像预处理(六)
OpenCV — 图像预处理(六) 文章目录 OpenCV --- 图像预处理(六)十四,图像边缘检测14.1 高斯滤波14.2 计算图像的梯度与方向14.3 非极大值抑制14.4 双阈值筛选14.5 API和使用 十五,绘制图像轮廓15.1 什么是轮…...
WebRTC服务器Coturn服务器的管理平台功能
1、概述 开源的webrtc服务器提供管理平台功能,用户可以通过web页面进行访问配置coturn服务器,主要包括管理平台功能和telnet的管理功能,coturn相当于telnet服务器,可能通过配置来开启这两个功能,方便查看coturn服务器…...
华为网路设备学习-19 路由策略
一、 二、 注意: 当该节点匹配模式为permit下时,参考if else 当该节点匹配模式为deny下时: 1、该节点中的apply子语句不会执行。 2、如果满足所有判断(if-match)条件时,拒绝该节点并跳出(即不…...
理解RAG第六部分:有效的检索优化
在RAG系统中,识别相关上下文的检索器组件的性能与语言模型在生成有效响应方面的性能同样重要,甚至更为重要。因此,一些改进RAG系统的努力将重点放在优化检索过程上。 从检索方面提高RAG系统性能的一些常见方法。通过实施高级检索技术&#x…...
DOCA介绍
本文分为两个部分: DOCA及BlueField介绍如何运行DOCA应用,这里以DNS_Filter为例子做大致介绍。 DOCA及BlueField介绍: 现代企业数据中心是软件定义的、完全可编程的基础设施,旨在服务于跨云、核心和边缘环境的高度分布式应用工作…...
Hadoop----高可用搭建
目录标题 **什么是高可用?****⭐搭建的步骤**一.jdk**安装配置**- **要点**: 二.zookeeper**集群配置**- **要点** 三.Hadoop高可用的搭建- **要点**①环境变量的配置②配置文件的修改 ③内容分发④集群任务的初次启动 什么是高可用? 通过冗余设计 自动…...
2023蓝帽杯初赛内存取证-1
获取关于内存镜像文件的基本信息: vol.py -f memdump.mem imageinfo 得知Image local date and time : 2023-06-21 01:02:27 0800 Image local date and time是本地时区(中国——东八区) 答案:2023-06-21 01:02:27...
算法之回溯法
回溯法 回溯法定义与概念核心思想回溯法的一般框架伪代码表示C语言实现框架 回溯法的优化技巧剪枝策略实现剪枝的C语言示例记忆化搜索 案例分析N皇后问题子集和问题全排列问题寻路问题 回溯法的可视化理解决策树状态空间树回溯过程 回溯法与其他算法的比较回溯法与动态规划的区…...
Linux 内核中 cgroup(控制组) 作用是什么?
cgroup(Control Groups) 是 Linux 内核提供的一种机制,用于对 进程(或线程)组 进行资源限制、优先级分配、统计监控和任务控制。通过将进程分组管理,可以实现对 CPU、内存、磁盘 I/O、网络等系统资源的精细…...
Relay IR的核心数据结构
在 Apache TVM 的 Relay IR 中,基础节点(Var、Const、Call、Function 和 Expr)是构建计算图的核心数据结构。以下是对它们的详细解析,包括定义、作用、内部组成及相互关系: 1. Expr(表达式基类)…...
【MCP Node.js SDK 全栈进阶指南】初级篇(4):MCP工具开发基础
在MCP(模型上下文协议)的生态系统中,工具(Tools)是一种强大的扩展机制,允许AI模型执行各种操作并获取结果。本文将深入探讨MCP TypeScript-SDK中的工具开发基础,包括工具定义与参数验证、Zod模式详解与高级用法、异步工具处理与错误管理以及工具调用与结果格式化。通过学…...
3Blue1Brown/videos - 数学视频生成代码库
本文翻译整理自:https://github.com/3b1b/videos 文章目录 一、关于本项目相关链接资源关键功能特性 二、注意事项三、工作流1、核心原理2、Sublime 专用配置 四、快捷键功能说明 一、关于本项目 本项目包含用于生成 3Blue1Brown 数学解说视频的代码。 相关链接资源…...
vue3 + element-plus中el-drawer抽屉滚动条回到顶部
el-drawer抽屉滚动条回到顶部 <script setup lang"ts" name"PerformanceLogQuery"> import { ref, nextTick } from "vue"; ...... // 详情 import { performanceLogQueryByIdService } from "/api/performanceLog"; const onD…...
【inlining failed in call to always_inline ‘_mm_aesenclast_si128’】
gcc编译错误:inlining failed in call to always_inline ‘_mm_aesenclast_si128’: target specific option mismatch 消除方法: 假如是GCC,则CFLAGS添加如下编译选项:-maes 假如是cmake,参加如下脚本: …...
DB-GPT支持mcp协议配置说明
简介 在 DB-GPT 中使用 MCP(Model Context Protocol)协议,主要通过配置 MCP 服务器和智能体协作实现外部工具集成与数据交互。 开启mcp服务,这里以网页抓取为例 npx -y supergateway --stdio "uvx mcp-server-fetch" …...
前端之勇闯DOM关
一、DOM简介 1.1什么是DOM 文档对象类型(Document Object Model,简称DOM),是W3C组织推荐的处理课扩展标记语言(HTML或者XML)的标准编程接口 W3C已经定义了一系列的DOM接口,通过这些DOM接口可…...
实现鼠标拖拽图片效果
我们需要一个图片 可以是你的女朋友 可以是男朋友 ,我就拿窝的偶像 一个大佬——>甘为例吧! 哈哈哈哈哈 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport&q…...
nodejs模块暴露数据的方式,和引入(导入方式)方式
在 Node.js 中,模块之间通过 模块导出(exports) 和 模块导入(require 或 ESModule 的 import) 来进行数据和功能的共享。下面我详细总结一下两种主要的模块系统: 一、CommonJS 模块(Node.js 默认…...
AXOP33552: 400MHz 高速双通道运算放大器
AXOP33552是一款通用型高速双通道运算放大器,产品的工作电压为2V至5.5V,具有400MHz的带宽,f0.1dB的带宽为 120MHz,单通道静态电流为10mA。产品特别对噪声和THD做了优化,其噪声为5nV/√Hz 1MHz,2次谐波为-85…...
Spring Boot日志配置
目录 logback 使用logback 获取日志对象 日志级别 控制日志输出级别 日志输出格式控制 配置方式 日志转存 示例 日志是应用程序不可或缺的一部分,记录着程序运行的信息。主要作用有: 记录日常运营的重要信息记录应用报错信息记录过程数据等…...
不可变数据:基于持久化数据结构的状态管理
不可变数据:基于持久化数据结构的状态管理 一、 什么是不可变数据? 不可变数据是指一旦创建就无法更改的数据。在计算机科学中,不可变数据结构是指其内容或状态不能被修改的数据结构。在不可变数据中,所有修改操作都会生成新的数据副本&#…...
PyTorch卷积层填充(Padding)与步幅(Stride)详解及代码示例
本文通过具体代码示例讲解PyTorch中卷积操作的填充(Padding)和步幅(Stride)对输出形状的影响,帮助读者掌握卷积层的参数配置技巧。 一、填充与步幅基础 填充(Padding):在输入数据边缘…...
C++手撕STL-其叁
Deque 今天我们进入新的容器:deque,一般叫做双端队列。 比起传统的先入先出的队列queue,deque的出场率显然要低得多,事实上deque比起queue来说最大的特点就是多了一个push_front()和pop_front(),其他并没有太多不同。…...