当前位置：首页 > news >正文

【大模型理论篇】SWIFT: 可扩展轻量级的大模型微调基础设施

news 来源：原创 2025/9/20 19:19:10

1. 背景

大模型(LLM)和多模态大模型(MLLM)利用基于Transformer的架构获得了很迅速的发展。为满足对这些模型的训练和轻量级微调需求，目前已有一些开源框架，如LLaMA-Factory、Firefly、FastChat、Axolotl和LMFlow等。但这些框架在支持的模型、技术和功能上各有限制。例如，LLaMA-Factory支持超过100种文本LLM，但对多模态模型支持有限；FastChat主要关注模型推理和部署，训练支持相对有限。我们今天主要聊一下SWIFT。在之前，我们已经用SWIFT框架微调过部分大模型，包括Qwen系列和ChatGLM系列。事实上，swift支持超过300种LLM和50种MLLM，是提供最全面大模型微调支持的开源框架，尤其是在多模态模型支持方面也是有其独有的特点。此外，swift还整合了推理、评估和模型量化等后处理功能。

之所以想聊SWIFT框架，是因为实际使用下来，发现框架的完整度很高，并且支持的主流大模型很多，是一个不错且容易上手的微调框架，框架涉及的内容很多，我希望后续逐步分享，将swift框架能够拆开揉碎了来理解。

大模型通常包含数十亿参数，训练和微调成本高昂，成为AI普及的瓶颈。虽然有诸如Prefix Tuning、LoRA等轻量级微调方法出现，但各种方法的差异和复杂性仍然使开发者面临挑战。此外，为确保训练模型能有效部署，还需要考虑后处理过程，如推理、评估等。

为解决这些问题，ModelScope团队开发了SWIFT开源框架，简化大模型的轻量级训练，并集成后处理功能。

2. 训练架构

SWIFT框架设计遵循统一文本和多模态模型的理念，消除训练纯文本LLM和多模态MLLM之间的差距，通过建立数据处理、模型模板和模型训练的统一标准来实现。同时，框架集成了训练、推理、评估、量化和部署等全流程功能。

SWIFT支持多种轻量级微调技术：

减少可训练参数：如LISA，通过随机激活不同层，显著减少内存使用
模型量化：支持BNB、HQQ、EETQ、AWQ、GPTQ和AQLM六种量化方法
减少梯度值内存使用：如GaLore对梯度值进行SVD分解
冻结原始模型：支持LoRA和AdaLoRA等额外结构训练
分片或混合精度：支持DeepSpeed Zero1/2/3、FSDP等

SWIFT的微调器(Tuner)模块在PEFT库基础上进行扩展，支持LoRA、AdaLoRA、IA3、BOFT和Vera等技术，并进行调整以确保与MLLM训练兼容。此外，SWIFT还提供了其他微调器支持，包括SCEdit、ResTuning、LLaMA-Pro、LongLoRA和LISA等，这些微调器可以组合使用，类似PEFT的MixedPeftModel功能。

在模型功能模块中，SWIFT提供基本模型加载器，允许灵活自定义模型配置。考虑到训练中可能出现的兼容性问题，SWIFT使用补丁(patcher)模块在模型加载后解决这些问题，确保在单GPU、多GPU、全参数或LoRA训练等不同场景中的顺利操作。

在数据集模块中，支持三种数据源：ModelScope的MsDataset、Hugging Face的datasets模块以及用户自定义数据集(如本地CSV或JSONL文件)。数据集模块的预处理功能将不同数据集转换为标准格式。

模型模块的关键组件是模板(template)，确保SWIFT支持的各种模型能正确生成input_ids、attention_masks、pixel_values和labels等关键字段。对于多模态定位任务，在模板中转换边界框(bbox)坐标。

在训练组件中，包括SFT/PT训练器和人类对齐训练器。前者直接继承自Transformers的训练器，用于预测和训练下一个token的交叉熵。后者继承自TRL的相应类，用于训练DPO、ORPO和KTO等各种RLHF算法。

2.1 推理与部署架构设计

SWIFT的推理和部署功能基于三种后端：PyTorch Native(PT)、vLLM和LMDeploy。这三个推理框架共享相同的参数。SWIFT使用FastAPI封装推理为服务，符合OpenAI通用接口定义。对于Agent功能的部署，SWIFT支持tools和tool等OpenAI标准字段，并支持ToolBench和ReACT等Agent数据格式的推理和部署。

2.2 评估架构设计

SWIFT依赖ModelScope社区的EvalScope框架构建评估能力，该框架通过集成OpenCompass(用于文本模型)和VLMEvalKit(用于多模态模型)构建评估功能。通过集成EvalScope，SWIFT目前支持100多个纯文本和多模态评估集，以及两种自定义评估数据集：

客观问题评估：类似CEval，开发者可以将数据集格式化为CEval风格的CSV文件
QA主观问题评估：使用ROUGE和BLEU等标准指标

2.3 量化与导出架构设计

导出模块主要用于合并微调器、转换检查点格式和量化。目前支持以下操作：

合并微调器：包括LoRA、LongLoRA和LLaMA-Pro等
转换检查点：在Transformers格式和Megatron格式之间相互转换
量化：支持AWQ、GPTQ和BNB三种量化方法
导出到Ollama：包括模型的模板配置

3. 实验结果

3.1 轻量级微调基准

研究团队使用SWIFT复制和验证了各种轻量级微调算法对模型的影响。使用qwen-7b-chat作为基础模型，在单个A100-80G GPU上进行训练，比较内存使用和损失等指标。

微调器	训练/评估损失	可训练参数(M)	内存(GiB)	速度(样本/秒)
AdaLoRA	0.57 / 1.07	26.84 (0.35%)	32.55	0.92
DoRA	0.53 / 1.01	19.25 (0.25%)	32.46	0.51
GaLore	0.55 / 1.00	7721.32 (100%)	47.02	1.10
Q-GaLore	0.54 / 1.00	7721.32 (100%)	41.53	1.45
LLaMAPro	0.53 / 1.00	809.58 (9.49%)	38.11	1.53
LoRA+	0.53 / 0.98	17.89 (0.23%)	32.35	0.95
LoRA	0.53 / 1.01	17.89 (0.23%)	32.35	0.95
RsLoRA	0.53 / 0.99	17.89 (0.23%)	32.35	0.94
LISA	0.62 / 1.06	-	31.11	2.66
Full	0.54 / 0.95	7721.32 (100%)	73.53	1.43

实验结果显示，LISA实现了最低的内存消耗和最快的速度。在额外结构微调器中，LoRA+记录了最低的评估损失。在梯度减少方法中，Q-GaLore表现出最低的内存消耗。

3.2 Agent训练

Agent训练是模型SFT中的重要类别。使用ToolBench数据集和AgentFlan数据集的混合数据集进行了一系列实验，采用LLaMA3-8b-instruct模型和Qwen2-7b-instruct模型进行训练，并比较了训练前后的结果。还引入了loss-scale技术，增强某些重要token的权重。基于LLaMA3-8b-instruct模型的实验结果显示，引入loss-scale显著改善了所有评估指标。

模型	Plan.EM	Act.EM	幻觉率	Avg.F1	R-L
原始	74.22	36.17	15.68	20.0	12.14
无loss-scale	84.29	55.71	4.85	49.40	25.06
有loss-scale	85.1	58.15	1.57	52.10	26.02

对于Qwen2-7b-instruct的实验结果，与官方Qwen2模型相比，训练后的平均指标提高了8.25%，模型幻觉减少到个位数。

模型	Plan.EM	Act.EM	幻觉率	Avg.F1	R-L
原始	74.11	54.74	4.16	46.53	8.51
GPT4	80.28	55.52	5.98	48.74	28.69
LoRA(本文)	77.05	56.97	0.9	49.53	19.81
Full(本文)	83.37	60.01	2.58	54.41	26.34

对于LLaMA3-8b-instruct，基于LoRA训练，平均指标提高了17%。这表明开源模型和数据集对实际垂直场景中的Agent训练具有意义。

3.3 与其他框架的比较

功能/框架	LLaMA-Factory	FireFly	FastChat	Axolotl	LMFlow	SWIFT(本文)
支持LLM预训练	✓			✓	✓	✓
支持Megatron预训练						✓
支持LLM-SFT	✓	✓	✓	✓	✓	✓
支持LLM-DPO	✓			✓		✓
支持多模态预训练						✓
支持多模态SFT	3个模型					50+模型
支持多模态RLHF	3个模型					50+模型
支持vLLM	✓		✓			✓
支持LMDeploy						✓
LLM评估	3个数据集				✓	48个数据集
多模态评估						95个数据集
WEB-UI	✓		✓			✓

4. 一些改进项

尽管SWIFT已经具备丰富功能，但有些特性依然待实现，包括：

更好地支持Megatron大规模并行训练，目前SWIFT对Megatron模型的支持未完全覆盖主流LLM和MLLM
更深入的多模态研究，如提供高质量数据集防止知识遗忘，或使用ModelScope自研数据集训练新的多模态模型

5. 部分脚本示例

# 多GPU SFT命令
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
NPROC_PER_NODE=8 \
swift sft \
--model_type qwen1half-32b-chat \
--dataset blossom-math-zh \
--deepspeed default-zero3# 单GPU RLHF命令 
swift rlhf \
--model_type llama3-8b-instruct \
--rlhf_type dpo \
--dataset hh-rlhf# 推理多模态模型
swift infer \
--model_type internvl2-8b \
--infer_backend lmdeploy# 使用vLLM部署检查点
swift deploy \
--ckpt_dir /mnt/my-custom/ckpt-1100 \
--infer_backend vllm# 评估NLP模型
swift eval \
--model_type llama3-8b-instruct \
--eval_dataset ceval gsm8k# 合并LoRA
swift export --ckpt_dir /mnt/my-custom/ckpt-1100 --merge_lora true

6. 参考材料

【1】SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning

【大模型理论篇】SWIFT: 可扩展轻量级的大模型微调基础设施

1. 背景大模型(LLM)和多模态大模型(MLLM)利用基于Transformer的架构获得了很迅速的发展。为满足对这些模型的训练和轻量级微调需求，目前已有一些开源框架，如LLaMA-Factory、Firefly、FastChat、Axolotl和LMFlow等。但这些框架在支持的模型、技术和功能上…...

编程日记 2025/9/20 19:19:10

利用 schedule 模块在每日上午每 3 秒执行任务

一、schedule 模块基础原理与功能概述 schedule 模块维护了一个任务队列，每个任务都关联着一个特定的时间触发器和对应的执行函数。当系统时间到达任务设定的触发时间时，模块会从队列中取出相应的任务并执行其关联的函数。这种设计模式使得开发者无需过多关注底层的时间处理…...

编程日记 2025/9/9 17:52:34

ruby超高级语法

以下是 Ruby 中一些极度硬核的语法和底层特性，涉及元编程的深渊、虚拟机原理、语法黑魔法等，适用于追求极限的 Ruby 开发者： 一、语法核弹级操作 1. 动态修改继承链 class A; def foo; "A"; end end class B; def foo; "B…...

编程日记 2025/9/10 19:35:26

Java Stream API：现代化集合处理的艺术

Java Stream API：现代化集合处理的艺术引言在Java 8中引入的Stream API彻底改变了我们处理集合数据的方式。它不仅仅是一个新的工具集，更代表了一种声明式、函数式的编程范式。本文将深入探讨Java Stream的核心概念、使用场景和最佳实践。一、什么是Stream？ Stream（…...

编程日记 2025/9/18 16:49:01

ruby高级语法

以下是 Ruby 高级语法的详细总结，涵盖元编程、模式匹配、闭包、并发模型等核心主题： 一、元编程（Metaprogramming） 1. 动态定义方法 class DynamicClass# 使用 define_method 动态定义方法["foo", "bar"].e…...

编程日记 2025/9/9 18:08:39

特权FPGA之UART串口

0.简介通用异步收发器(Universal Asynchronous Receiver／Transmitter，UART)可以和各种标准串行接口，如RS 232和RS 485等进行全双工异步通信，具有传输距离远、成本低、可靠性高等优点。一般UART由专用芯片如8250，1645…...

编程日记 2025/9/20 19:19:09

oracle 索引失效

在 Oracle 11g 中，索引失效的常见原因包括函数修改列、隐式类型转换、统计信息过时等，解决方法需结合版本特性（如虚拟列、索引跳跃扫描）。通过执行计划分析、统计信息维护和合理使用提示（Hints）&#xff0c…...

编程日记 2025/9/9 9:48:58

MySQL查看binlog执行情况

因数据丢失，被要求使用binlog查看执行SQL的具体情况。拿到数据库压缩包，解压缩获得文件和文件夹若干。如图，有17个binlog文件，目标数据库名应为corr。已知这个数据库是安装在windows下，版本8.0. 先下载一个mysq…...

编程日记 2025/9/11 12:19:39

kotlin，Android，jetpack compose，日期时间设置

AI生成，调试出来学习，这些小组件会用了，就可以组合一个大点的程序了。 package com.example.mydatetimeimport android.app.AlertDialog import android.os.Bundle import androidx.activity.ComponentActivity import androidx.activity.co…...

编程日记 2025/9/3 7:21:02

sql-labs靶场 less-2

文章目录 sqli-labs靶场less 2 联合注入 sqli-labs靶场每道题都从以下模板讲解，并且每个步骤都有图片，清晰明了，便于复盘。 sql注入的基本步骤注入点注入类型字符型：判断闭合方式 （‘、"、’、“”&#xf…...

编程日记 2025/9/20 4:39:41

ssh密钥连接远程服务器并用scp传输文件

ssh密钥连接远程服务器私钥的权限必须是600chmod 600 id_rsa连接时在命令中加上私钥的地址ssh -i PATH_to_id_rsa usernameip -p port scp -P port -i PATH_to_id_rsa file usernameip:PATH...

编程日记 2025/8/17 23:42:53

【锂电池SOH预测】PSO-BP锂电池健康状态预测，锂电池SOH预测（Matlab完整源码和数据）

预测效果基于PSO-BP算法的锂电池健康状态预测研究一、引言 1.1 研究背景与意义在当今社会，锂电池凭借其高能量密度、长寿命及环境友好等特性，在现代能源系统中占据着举足轻重的地位。从消费电子领域如智能手机、笔记本电脑，到动力领域中…...

编程日记 2025/9/15 21:51:23

找搭子系统搭子经济新风口基于精准匹配的社交新生态探索

一、市场前景：为什么现在需要"找搭子"？ 孤独经济爆发超60%年轻人存在"精准陪伴"需求（2024社交报告） 传统社交App无法满足"非婚恋、非熟人"的中间态需求线下活动复苏剧本杀/飞盘等兴趣活动年增…...

编程日记 2025/9/20 14:43:22

《Spring Boot+策略模式：企业级度假订单Excel导入系统的架构演进与技术实现》

前言在数字化时代背景下，订单管理系统的高效性与灵活性成为企业竞争力的核心要素。本文档详细剖析了一个基于策略模式的度假订单导入系统，通过分层架构设计实现了多源异构数据的标准化处理。系统以 Spring Boot 为核心框架，结合 MyBatis …...

编程日记 2025/9/15 17:02:57

软件需求分析习题汇编

需求工程练习题一、选择题 1. 软件需求规格说明书的内容不应包括对（ ）的描述。 A. 主要功能B. 算法的详细过程C. 用户界面及运行环境D. 软件的性能 *正确答案:*B:算法的详细过程; 2. 需求分析最终结果是产生（ ） A. 项目开发…...

编程日记 2025/9/11 3:39:40

51单片机的汇编伪指令

目录一、ORG 汇编起始地址命令 1、功能 2、语法格式 3、使用示例 4、注意事项二、END 汇编终止命令 1、功能 2、语法格式 3、使用示例 4、注意事项三、EQU 赋值命令 1、功能 2、语法格式 3、使用示例 4、注意事项四、BIT 位定义命令 1、功能 2、语法格式…...

编程日记 2025/9/12 12:07:35

深入探究Python的re模块及其在爬虫中的应用

深入探究Python的re模块及其在爬虫中的应用一、引言在Python的强大生态系统中，re模块作为处理正则表达式的核心工具，发挥着举足轻重的作用。正则表达式是一种描述文本模式的强大语言，能够高效地进行字符串的匹配、查找、替换等操作。无论…...

编程日记 2025/9/14 4:35:50

aosp13增加摄像头控制功能实现

A13中，可以要求做一个开关来控制摄像头是否可用，约束所有使用摄像头的应用。思路：设置中增加开关设置一个属性值，在摄像头调用实现层增该值判断即可一开关的开发： 设置-安全中增加开关选项代码部分&#x…...

编程日记 2025/9/9 17:41:36

Kotlin 之 vararg 参数向下传递的几种方式

在 Kotlin 中，vararg 参数是一种特殊的参数类型，用于表示可变数量的参数。vararg 参数是否可以向下传递，需要根据目标方法的参数类型来决定。 1、目标方法参数也是vararg类型，可直接向下传递在 method 方法中，通过 …...

编程日记 2025/9/15 1:10:03

Kotlin学习

kotlin android 开源,Kotlin开源项目集合_晚安呼-华为开发者空间干货来袭，推荐几款开源的Kotlin的Android项目...

编程日记 2025/9/18 12:35:14

AI写程序:图片批量重命名工具 - 自动化整理您的图片库

图片批量重命名工具 - 自动化整理您的图片库 GitHub项目地址: https://github.com/dependon/renameImage 项目介绍这是一个基于Python开发的图形界面工具，用于批量重命名文件夹中的图片文件。它能够递归处理选定文件夹及其所有子文件夹中的图片，按照…...

编程日记 2025/9/11 13:37:45

git命令自动拉去远程分支到本地

是的，可以通过 Git 命令自动拉取远程分支并在本地创建同名分支。以下是几种方法： 方法 1：直接拉取远程分支并创建同名本地分支 git fetch origin <远程分支名> # 拉取远程分支 git checkout -b <本地分支名> origin/<远程分…...

编程日记 2025/9/9 12:56:29

[创业之路-364]：穿透表象：企业投资的深层逻辑与误区规避

前言： 透过现象看本质企业一生与人生相似看企业如同看人三岁看大，七岁看老三十年河东，三十年河西企业也有品行、文化、气质、性格、赚钱、生命周期与赚钱曲线投资公司的目的是未来赚钱，赚未来赚钱。投资创业中的企业主要看…...

编程日记 2025/9/18 10:54:23

UE5 蓝图里的声音

文章目录支持的格式设置循环播放在场景中放置音频设置音频的衰减与不衰减在UI动画中播放声音使用蓝图节点播放声音按钮本身就可以播放声音支持的格式支持：WAV 不支持：MP3 设置循环播放双击音频，打开音频设置，勾选Looping …...

编程日记 2025/9/12 11:21:25

Spring Boot 邮件发送配置遇到的坑：解决 JavaMailSenderImpl 未找到的错误

在使用 Spring Boot 开发时，我们经常需要通过邮件发送功能来实现某些业务逻辑。为了方便快速集成，Spring Boot 提供了一个非常好用的 spring-boot-starter-mail 模块，帮助我们轻松发送邮件。但是，在配置过程中可能会遇到一些问题&…...

编程日记 2025/9/8 13:57:20

路由表的最终地址 root 路由跟踪,最终到哪里去

在路由跟踪（如tranceroute或trancert命令）中，最终地址是目标主机或服务器的IP地址或域名所对应的实际网络地址；路由跟踪的目的是显示数据包从本地主机到目标主机所经过的每一跳路由器或网络节点，而最终地址是数据包要到达的目标设备。 1.路由跟踪的最终地址目标主机：路…...

编程日记 2025/9/15 11:07:31

Docker面试全攻略（一）：镜像打包、容器运行与高频问题解析

引言在云原生和微服务架构盛行的今天，Docker 已成为后端开发的必备技能。本文从面试高频考点出发，系统梳理 Docker 镜像构建、容器运行的核心知识点，助你轻松应对 Docker 相关的技术面试！一、Docker 镜像构建核心（面试必问） 1. Dockerfile 核心命令与参数 FROM：基…...

编程日记 2025/9/10 1:29:04

方法的重写

目录 1、重写的概念2、方法重写的规则3、重写 VS 重载 1、重写的概念重写，也称为覆盖，是子类对父类的非构造、非静态、非 final 修饰、非 private 修饰的方法的实现过程的重新编写。重写可以让子类根据需要来实现父类的方法。方法重写是子类与父类的一…...

编程日记 2025/9/16 3:54:17

搭建hadoop集群模式并运行

3.1 Hadoop的运行模式先去官方看一看Apache Hadoop 3.3.6 – Hadoop: Setting up a Single Node Cluster. 本地模式：数据直接存放在Linux的磁盘上，测试时偶尔用一下伪分布式：数据存放在HDFS，公司资金不足的时候用完全分布式&a…...

编程日记 2025/9/20 12:24:23

【学Rust写CAD】39 over_in_in 函数(alpha256补充方法）

源码 // Similar to over_in but includes an additional clip alpha value#[inline]pub fn over_in_in(self,src: Argb, dst: Argb, clip: Alpha) -> Argb {let src_alpha self * clip;let dst_alpha !(src_alpha*src.alpha_t());// we sum src and dst before reducing…...

编程日记 2025/9/20 1:29:38