大语言模型训练的两个阶段
先说结论:第一阶段在云平台训练至收敛 第二阶段本地GPU微调
一、阶段划分的核心逻辑
阶段 | 目标 | 资源特点 | 典型耗时占比 | 成本敏感度 |
---|---|---|---|---|
预训练 | 获取通用表征能力 | 需要大规模分布式计算 | 70-90% | 高(追求每美元算力) |
微调 | 适配特定任务 | 需要领域数据安全/低延迟 | 10-30% | 中(需平衡效率与隐私) |
二、第一阶段:云平台预训练至收敛
1. 实施步骤
-
步骤1:配置云训练环境
bash
# 以AWS为例创建EC2实例 aws ec2 run-instances \--image-id ami-0c94855ba95c71c99 \ # Deep Learning AMI--instance-type p4d.24xlarge \ # 8×A100 40GB--volume-size 1000 \ # 1TB存储--security-group-ids sg-xxxxxx
-
步骤2:启动分布式训练
python
# 使用HuggingFace Trainer配置 training_args = TrainingArguments(output_dir="./gpt2-pretrained",num_train_epochs=100,per_device_train_batch_size=32,gradient_accumulation_steps=8,learning_rate=6e-5,fp16=True, # 启用混合精度deepspeed="configs/deepspeed_z3.json", # ZeRO-3优化logging_dir="./logs",save_strategy="steps",save_steps=10_000 )
-
步骤3:监控收敛状态
-
指标判断:当验证集loss连续5个epoch下降幅度<0.5%时判定收敛
-
断点续训:将checkpoint定期保存至S3存储桶
python
trainer.train(resume_from_checkpoint=True,cloud_checkpointing=s3://my-bucket/checkpoints )
-
2. 关键技术点
-
弹性算力管理:使用Kubernetes自动扩展集群规模
-
成本优化:采用Spot Instance节省60-70%费用
-
数据流水线:通过AWS Snowball传输PB级原始数据
三、第二阶段:本地GPU微调
1. 环境迁移流程
-
步骤1:模型下载与验证
bash
# 从S3下载预训练模型 aws s3 cp s3://my-bucket/gpt2-pretrained ./local-model/ --recursive# 验证模型完整性 sha256sum ./local-model/pytorch_model.bin
-
步骤2:构建本地训练环境
python
复制
下载
# 微调代码示例(使用QLoRA) from peft import LoraConfig, get_peft_modellora_config = LoraConfig(r=8,lora_alpha=32,target_modules=["q_proj","v_proj"],lora_dropout=0.05,bias="none" ) model = get_peft_model(model, lora_config)
2. 本地微调实施
-
硬件配置建议
组件 推荐配置 备注 GPU RTX 4090 (24GB) 支持int4量化 内存 64GB DDR5 处理长序列必备 存储 2TB NVMe SSD 加速数据加载 -
微调参数设置
python
training_args = TrainingArguments(output_dir="./gpt2-finetuned",per_device_train_batch_size=4,gradient_accumulation_steps=2,learning_rate=2e-5, # 比预训练低1-2个量级max_steps=1000,optim="adamw_torch_fused", report_to="none" # 本地不连接MLflow等 )
-
安全增强措施
-
数据加密:使用AES-256加密微调数据集
-
网络隔离:断开外网连接进行air-gapped训练
-
模型脱敏:
model.strip_private_weights()
移除敏感信息
-
相关文章:
大语言模型训练的两个阶段
先说结论:第一阶段在云平台训练至收敛 第二阶段本地GPU微调 一、阶段划分的核心逻辑 阶段目标资源特点典型耗时占比成本敏感度预训练获取通用表征能力需要大规模分布式计算70-90%高(追求每美元算力)微调适配特定任务需要领域数据安全/低延迟…...
ACL访问控制列表:access-list 10 permit 192.168.10.1
ACL访问控制列表 标准ACL语法 1. 创建ACL access-list <编号> <动作> <源IP> <通配符掩码> // 编号范围 1-99 // 动作:permit 允许 、 deny 拒绝2. 示例 //允许192.168.1.0/24g整个网络,0.0.0.255 反掩码 access-list 10 permit 192.1…...
高粘度、强腐蚀介质解决方案:V型气动带手动活塞式开关调节球阀的五大核心优势-耀圣控制
高粘度、强腐蚀介质解决方案:V型气动带手动活塞式开关调节球阀的五大核心优势 在石油化工、污水处理、锂电材料等工业场景中,含有颗粒的高粘度介质、料浆及强腐蚀性流体对阀门的性能提出了极高要求。传统球阀易因介质沉积、腐蚀或卡阻导致失效ÿ…...
后端开发面试高频50个问题,简单解答
以下是后端开发面试中常见的50个高频问题及其详细解答,涵盖了语言基础、数据库、网络、操作系统、设计模式等多个方面: 编程语言基础 Java 中的 final 关键字有什么作用? final 可以修饰类、方法和变量。修饰类时,类不能被继承&am…...
LayerNorm vs RMSNorm 技术对比
1. 核心概念 LayerNorm (层归一化) 思想:对单个样本的所有特征维度进行归一化目标:使每个样本的特征分布 μ 0 \mu0 μ0, σ 1 \sigma1 σ1特点:同时调整均值和方差 RMSNorm (均方根归一化) 思想:基于均方根的简…...
基于SpringBoot的校园周边美食探索及分享平台【附源码+数据库+文档下载】
一、项目简介 本项目是一个基于 SpringBoot Vue 的校园周边美食探索与分享平台,专为在校大学生开发,集美食推荐、好友互动、收藏分享于一体。 通过平台,用户可以探索学校周边的美食店铺、发布美食鉴赏、添加好友进行交流分享。同时&#x…...
开启WSL的镜像网络模式
开启WSL的镜像网络模式 前提 Windows主机系统版本高于Windows 11 22H2。WLS版本>2.0。 可输入wsl --version查看当前系统wsl版本。 修改设置 图形界面修改 在开始菜单中搜索:wsl settings,结果如下图所示: 点击“打开”࿰…...
传导发射中的模拟手
“模拟手”是按照国际 EMC 标准(如 CISPR 16-1-2, CISPR 22, GB/T 9254 等)中规定的,用于 测试带有接地金属外壳或信号线接口设备在接地或金属表面触摸时的传导发射性能。有些设备在“无触摸”时能通过传导发射,但一旦接地或接手&…...
Femap许可使用统计与分析
在电磁仿真领域,Femap作为一款高效且功能强大的工具,广泛应用于各种复杂场景。随着企业规模的扩大和团队协作的加强,如何有效地管理和利用Femap许可证资源成为了关注的焦点。本文将向您介绍Femap许可使用统计与分析的重要性,以及如…...
接口自动化测试设计思路--设计实战
课程:B站大学 记录python学习,直到学会基本的爬虫,使用python搭建接口自动化测试就算学会了,在进阶webui自动化,app自动化 接口自动化测试设计思路 如何进行接口自动化测试设计思路?1. 背景2. 设计目标3. 框…...
华为FAT AP配置 真机
FAT AP 的主要特点 特性说明独立工作不需要AC(无线控制器),自己处理认证、加密、漫游等功能。内置完整功能支持SSID、安全策略(WPA/WPA2)、VLAN、QoS、DHCP等。适合小型网络适用于家庭、小企业、分支机构等少量AP的场…...
Node.js中那些常用的进程通信方式
文章目录 1 什么是子进程?2 核心方法详解2.1 `child_process.spawn(command, [args], [options])`2.2 `child_process.exec(command, [options], callback)`2.3 `child_process.execFile(file, [args], [options], callback)`2.4 `child_process.fork(modulePath, [args], [op…...
spring中的@PropertySource注解详解
一、核心功能与作用 PropertySource是Spring框架中用于加载外部配置文件的核心注解,主要作用是将属性文件(如.properties、.yml)的键值对加载到Spring的Environment环境中,实现配置与代码的解耦。其核心价值包括: 外部…...
软件设计师-错题笔记-系统开发与运行
1. 解析: A:模块是结构图的基本成分之一,用矩形表示 B:调用表示模块之间的调用关系,通过箭头等符号在结构图中体现 C:数据用于表示模块之间的传递的信息,在结构图中会涉及数据的流向等表示 …...
豆瓣电影Top250数据工程实践:从爬虫到智能存储的技术演进(含完整代码)
目录 引言:当豆瓣榜单遇见大数据技术 项目文档 1.1 选题背景 1.2 项目目标 2. 项目概述 2.1 系统架构设计 2.2 技术选型 2.3 项目环境搭建 2.3.1 基础环境准备 2.3.2 爬虫环境配置 2.3.3 Docker安装ES连接Kibana 安装IK插件 2.3.4 vscode依赖服务安装 3. 核心模…...
【Dv3Admin】工具数据验证配置文件解析
在 Django Rest Framework (DRF) 中,数据验证是确保系统安全和稳定运行的核心部分。dvadmin/utils/validator.py 提供了定制化的验证器,扩展了 DRF 默认的验证功能,帮助开发者在处理字段唯一性验证、数据查询等方面更为高效和安全。 本文详细…...
ExcelJS库的使用
ExcelJS 安装 npm install exceljs新的功能! Merged fix: styles rendering in case when “numFmt” is present in conditional formatting rules (resolves #1814) #1815. Many thanks to andreykrupskii for this contribution!Merged inlineStr cell type support #15…...
主从架构:技术原理与实现
一.简单介绍分布式锁的复习 今天在一个分布式锁的视频讲解中,提到了主从架构,所以有了这篇文章。 当然我们可以先说说分布式锁,可以使用redis的setnxlua脚本实现,或者也可以用redission实现,或者看门狗机制。 由看门…...
8天Python从入门到精通【itheima】-1~5
目录 1节: 1.Python的优势: 2.Python的独具优势的特点: 2节-初识Python: 1.Python的起源 2.Python广泛的适用面: 3节-什么是编程语言: 1.编程语言的作用: 2.编程语言的好处:…...
JVM之垃圾回收器
部分内容来源:JavaGuide,二哥Java 垃圾回收器快速复习 JDK 8: Parallel Scavenge(新生代) Parallel Old(老年代) JDK8: Serial Serial Old JDK 9 ~ JDK22: G1 新生代:标记-复制算法 老年代&…...
【K8S学习之生命周期钩子】详细了解 postStart 和 preStop 生命周期钩子
0. 参考 Kubernetes容器生命周期 —— 钩子函数详解(postStart、preStop) - 人艰不拆_zmc - 博客园详解Kubernetes Pod优雅退出 - 人艰不拆_zmc - 博客园 1. Kubernetes 生命周期钩子概述 在 Kubernetes 中,生命周期钩子(Lifec…...
深度强化学习有什么学习建议吗?
什么是强化学习? 广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一 轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环 境发生相应的改变并且将相应…...
Flutter - UIKit开发相关指南 - 控制器,主题,表单
环境 Flutter 3.29 macOS Sequoia 15.4.1 Xcode 16.3 控制器(ViewControllers) 在UIKit中,通过ViewController控制数据在视图上展现,多个ViewController组合在一起构建复杂的用户界面。在Flutter中,因为所有都是Widget,所以ViewController相关的功能也由Widget来承担。 生命周…...
嵌入式软件开发常见warning之 warning: implicit declaration of function
文章目录 🧩 1. C 编译流程回顾(背景)📍 2. 出现 warning 的具体阶段:**编译阶段(Compilation)**🧬 2.1 词法分析(Lexical Analysis)🌲 2.2 语法分…...
AI赋能安全生产,推进数智化转型的智慧油站开源了。
AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用…...
(六)毛子整洁架构(测试)
文章目录 项目地址一、 项目地址 教程作者:教程地址: 代码仓库地址: 所用到的框架和插件: dbt airflow一、...
Vue3 Echarts 3D饼图(3D环形图)实现讲解附带源码
文章目录 前言一、准备工作1. 所需工具2. 引入依赖方式一:CDN 快速引入方式二:npm 本地安装(推荐) 二、实现原理解析三、echarts-gl 3D插件 使用回顾grid3D 常用通用属性:series 常用通用属性:surface&…...
Java大师成长计划之第20天:Spring Framework基础
📢 友情提示: 本文由银河易创AI(https://ai.eaigx.com)平台gpt-4o-mini模型辅助创作完成,旨在提供灵感参考与技术分享,文中关键数据、代码与结论建议通过官方渠道验证。 在Java开发领域,Spring …...
WebSocket集成方案对比
WebSocket集成方案对比与实战 架构选型全景图 #mermaid-svg-BEuyOkkoP6cFygI0 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-BEuyOkkoP6cFygI0 .error-icon{fill:#552222;}#mermaid-svg-BEuyOkkoP6cFygI0 .er…...
新能源汽车电池加热技术:传统膜加热 vs. 脉冲自加热
在新能源汽车的普及过程中,低温环境下的电池性能一直是影响用户体验的关键问题。当温度低于0C时,锂电池的内阻增大,充放电效率下降,续航缩短,甚至可能因低温充电导致电池损坏。 引言:电池低温性能衰减机理 …...
C++ 状态模式详解
状态模式(State Pattern)是一种行为设计模式,它允许一个对象在内部状态改变时改变其行为,使对象看起来像是改变了其类。 核心概念 设计原则 状态模式遵循以下设计原则: 单一职责原则:将状态相关行为分离…...
1. 使用 IntelliJ IDEA 创建 React 项目:创建 React 项目界面详解;配置 Yarn 为包管理器
1. 使用 IntelliJ IDEA 创建 React 项目:创建 React 项目界面详解;配置 Yarn 为包管理器 🧩 使用 IntelliJ IDEA 创建 React 项目(附 Yarn 配置与 Vite 建议)📷 创建 React 项目界面详解1️⃣ Name…...
【深度学习】目标检测算法大全
目录 一、R-CNN 1、R-CNN概述 2、R-CNN 模型总体流程 3、核心模块详解 (1)候选框生成(Selective Search) (2)深度特征提取与微调 2.1 特征提取 2.2 网络微调(Fine-tuning) …...
【node】6 包与npm
前言 目标 1 了解什么是包 2 怎么使用npm下载包 #mermaid-svg-Ur0d2uCdQeAQOJjW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Ur0d2uCdQeAQOJjW .error-icon{fill:#552222;}#mermaid-svg-Ur0d2uCdQeAQOJjW .erro…...
【C++进阶篇】多态
深入探索C多态:静态与动态绑定的奥秘 一. 多态1.1 定义1.2 多态定义及实现1.2.1 多态构成条件1.2.1.1 实现多态两个必要条件1.2.1.2 虚函数1.2.1.3 虚函数的重写/覆盖1.2.1.4 协变1.2.1.5 析构函数重写1.2.1.6 override和final关键字1.2.1.7 重载/重写/隐藏的对⽐ 1…...
计算机网络|| 路由器和交换机的配置
一、实验目的 1. 了解路由器和交换机的工作模式和使用方法; 2. 熟悉 Cisco 网络设备的基本配置命令; 3. 掌握 Cisco 路由器的基本配置方式及配置命令; 4. 掌握路由器和交换机的基本配置与管理方法。 二、实验环境 1. 运行 Windows 操作…...
图形化编程如何从工具迭代到生态重构?
一、技术架构的范式突破 在图形化编程领域,技术架构的创新正在重塑行业格局。iVX 作为开源领域的领军者该平台通过图形化逻辑设计,将传统文本编程需 30 行 Python 代码实现的 "按钮点击→条件判断→调用接口→弹窗反馈" 流程,简化…...
歌曲《忘尘谷》基于C语言的歌曲调性检测技术解析
引言 在音乐分析与数字信号处理领域,自动检测歌曲调性是一项基础且关键的任务。本文以C语言为核心,结合音频处理库(libsndfile)和快速傅里叶变换库(FFTW),探讨如何实现调性检测,并通…...
Spring Boot 使用Itext绘制并导出PDF
最终效果 其实可以加分页,但是没有那么精细的需求,所以我最后就没有加,有兴趣的可以尝试下。 项目依赖 <!-- Spring Boot 版本有点老 --> <spring-boot.version>2.3.12.RELEASE</spring-boot.version><!-- 依…...
医学影像处理与可视化:从预处理到 3D 重建的技术实践
🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,10年以上C/C++, C#, Java等多种编程语言开发经验,拥有高级工程师证书;擅长C/C++、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle,mysql,postgresql等进行开发应用…...
用 openssl 测试 tls 连接
以 baidu 为例,命令行为: openssl s_client -tlsextdebug -connect baidu.com:443 得到的输出为: CONNECTED(00000003) TLS server extension "renegotiation info" (id65281), len1 0000 - 00 …...
Matlab 汽车制动纵向动力学模型和PID控制
1、内容简介 Matlab 228-汽车制动纵向动力学模型和PID控制 可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 4、参考论文 略...
重塑JavaScript原生功底=>【构造函数篇】
概念:用于创建对象的函数称之为构造函数 作用:构造函数在 JavaScript 中是用来创建对象的最根本操作。 语法:当一个函数通过 new 关键字 来调用的话,那么这个函数就是一个构造函数。 场景:构造函数是专门用来创建对象…...
从0到1:Python机器学习实战全攻略(8/10)
摘要:通过本文的学习,我们深入探索了 Python 机器学习从入门到实战的精彩世界。从 Python 在机器学习领域的独特优势,到机器学习的核心概念,再到各种强大工具库的应用,以及实战项目的完整演练,我们逐步揭开…...
[计算机网络]网络层
文章目录 408考研大纲IPV4数据报格式协议: IPv4 地址DHCP协议IP组播 408考研大纲 IPV4数据报格式 协议: 1:ICMP IPv4 地址 特殊IP 网络号全1又称直接广播地址,32位全1又称受限广播地址 因为255.255.255.255只能在本网络内广播,路由器不许通过它&…...
华为行业认证是什么?如何考取华为行业认证?
据IDC预测,2027年全球数字化转型市场规模将突破3.4万亿美元,而中国将成为增长最快的市场之一。然而,85%的企业在转型中面临核心人才短缺的困境,尤其缺乏兼具技术能力与行业洞察的复合型人才! 讯方技术作为华为授权培训…...
Kotlin与Qt跨平台框架深度解析:业务逻辑共享与多语言集成
简介 Kotlin Multiplatform和Qt作为两大主流跨平台开发框架,各自在技术生态和应用场景上展现出独特优势。Kotlin Multiplatform专注于业务逻辑的跨平台共享,通过Kotlin语言的统一特性实现高达80%的代码复用率,特别适合移动应用和Web服务的业务逻辑开发。而Qt则凭借其强大的…...
基于LNMP架构的个人博客系统部署
一、项目概述 本项目旨在通过两台服务器(Server-Web和Server-NFS-DNS)搭建一个基于LNMP(Linux、Nginx、MySQL、PHP)架构的个人博客系统。通过域名访问自建网站,同时实现资源文件的共享和DNS解析功能。 二、服务器配置…...
Python训练打卡Day21
常见的降维算法: # 先运行预处理阶段的代码 import pandas as pd import pandas as pd #用于数据处理和分析,可处理表格数据。 import numpy as np #用于数值计算,提供了高效的数组操作。 import matplotlib.pyplot as plt #用于绘…...
PostgreSQL 序列(Sequence) 与 Oracle 序列对比
PostgreSQL 序列(Sequence) 与 Oracle 序列对比 PostgreSQL 和 Oracle 都提供了序列(Sequence)功能,但在实现细节和使用方式上存在一些重要差异。以下是两者的详细对比: 一 基本语法对比 1.1 创建序列 PostgreSQL: CREATE [ { TEMPORARY | TEMP } |…...