当前位置：首页 > news >正文

ms-swift 部分命令行参数说明

news 来源：原创 2025/8/24 7:54:50

参考链接

命令行参数 — swift 3.6.0.dev0 文档

Qwen Chat

num_train_epochs

训练的epoch数，默认为3

假设你有 1000 条训练样本，并且设置了：

num_train_epochs = 3

这意味着：

模型会完整地遍历这 1000 条数据 3 次。
每一次完整的遍历称为一个 epoch 。

为什么需要多个 epoch？

在第一个 epoch 中，模型可能还没有学到足够的信息；
第二个 epoch 可能会让模型进一步优化参数；
第三个 epoch 可能会让模型更准确；
但太多 epoch 可能会导致 过拟合（overfitting） —— 即模型记住训练数据而不是学会泛化。

per_device_train_batch_size

每个设备训练批量大小，在GRPO中，指 completion 的批次大小

假设你设置：

perDeviceTrainBatchSize = 16

每次训练时，模型会用 16 个样本 来做一次预测并更新参数；
如果你有多个设备（比如多个 GPU），每个设备都会处理 16 个样本；
所以总的 batch size = per_device_train_batch_size * num_devices

为什么这个参数重要？

方面	影响
训练速度	越大的 batch size 可能训练更快（利用硬件并行能力）
内存占用	batch size 越大，占用显存越多，太大可能导致 OOM（out of memory）
模型效果	太小可能不稳定（梯度噪声大），太大可能导致泛化能力下降
分布式训练	控制每个设备的负载，便于多设备训练

建议

快速训练	使用尽可能大的 batch size（不超过显存限制）
避免 OOM	从小开始逐步尝试（2 → 4 → 8）
微调大模型	推荐`1~8`，配合 gradient accumulation
多卡训练	可适当放大 per_device_batch_size
批量归一化（BatchNorm）问题	batch size 不宜过小（否则影响 BN 效果）

learning_rate

学习率，全参数默认为1e-5，LoRA等tuners为1e-4

更通俗的解释

在训练神经网络时，我们会计算损失函数（loss）对模型参数的梯度；
然后我们用这个梯度来调整模型参数；
learning_rate 决定了每一步调整的“力度”。

公式大致如下：

newParameter = oldParameter - learningRate * gradient

🔍 学习率的影响：

学习率大小	效果	问题
太大	更新步子大，训练快	容易跳过最优解，导致震荡或发散
太小	更新步子小，稳定但慢	收敛慢，可能陷入局部最小值或耗时太久

建议

1. 图像分类任务（如 CIFAR-10、ImageNet）

使用 SGD with momentum 时：

- 学习率从 0.1 开始，配合学习率衰减策略（如 Step Decay 或 Cosine Annealing）

使用 Adam 时：

- 学习率通常设为 3e-4（即 0.0003）

2. 自然语言处理（NLP）任务

使用 Transformer 模型（如 BERT、GPT、InternLM）时：

- 常用学习率：5e-5（即 0.00005）
- 有时也使用 3e-5 或 2e-5，特别是在微调阶段

3. 强化学习

学习率通常较小，例如：1e-4 到 1e-5

4. 大规模预训练模型微调（Fine-tuning）

推荐使用小学习率，如：2e-5 ~ 5e-5
因为预训练权重已经很好了，微调时只需轻微调整

warmup_ratio

它表示在整个训练过程中，有多少比例的训练步数（training steps）将被用于“学习率预热”阶段（Warmup Phase）。

通俗地讲：

在训练初期，模型权重是随机初始化的，直接使用较大的学习率可能导致不稳定；
使用 warmup 阶段可以让学习率从 0（或很小值）逐渐增加到目标学习率；
这样可以提高训练稳定性，避免初始阶段的剧烈震荡。

公式解释：

num_warmup_steps = int(warmup_ratio * total_training_steps)

total_training_steps：整个训练过程中的总步数（通常等于 num_epochs × num_batches_per_epoch）
warmup_ratio 一般取值在 0.01 ~ 0.2 之间

split_dataset_ratio

它表示训练集和验证集（或测试集）之间的划分比例

通常我们会将一个完整的数据集划分为：

训练集（Training Set） ：用于训练模型；
验证集（Validation Set） ：用于调参、选择最佳模型；
（有时也包括）测试集（Test Set） ：用于最终评估模型性能。

假设你有一个包含 1000 条样本的数据集，并设置：

let splitDatasetRatio = 0.8

那么：

训练集：1000 × 0.8 = 800 条样本；
验证集：1000 × (1 - 0.8) = 200 条样本；

也就是说，这个参数控制了训练集占整个数据集的比例。

lora_rank

lora_rank 表示 LoRA 中低秩矩阵的秩（rank），它控制了插入到原始模型权重中的适配矩阵的“复杂度”或“表达能力”。

lora_rank 越小 → 适配矩阵越“简单”，参数越少，节省内存和计算；
lora_rank 越大 → 适配矩阵越“复杂”，拟合能力越强，但也更容易过拟合；

模型规模	推荐`lora_rank`值
小模型（<1B）	8 ~ 64
中等模型（1B~10B）	8 ~ 32
大模型（>10B，如 LLaMA-13B、InternLM-7B）	8 ~ 16

lora_alpha

lora_alpha 是 LoRA 中用于控制适配矩阵缩放的一个超参数。

数学公式如下：

ΔW=rα⋅A⋅BT

其中：

r：是 lora_rank
α：就是 lora_alpha

假设你设置了：

lora_rank = 8
lora_alpha = 16

那么 LoRA 中的缩放因子就是：

16 / 8 = 2

也就是说，你的低秩矩阵的影响会被放大 2 倍。

use_chat_template

决定是否在推理或训练过程中自动应用模型内置的“对话格式模板”来组织输入文本

例如，你传入如下对话历史：

[{"role": "user", "content": "介绍一下你自己"},{"role": "assistant", "content": "我是 InternLM，由上海人工智能实验室开发的语言模型..."},{"role": "user", "content": "你能帮我写一篇关于夏天的文章吗？"}
]

如果启用了 use_chat_template = true，系统会自动将这段对话转换为类似下面的字符串：

<|User|>: 介绍一下你自己
<|Assistant|>: 我是 InternLM...
<|User|>: 你能帮我写一篇关于夏天的文章吗？

参数值说明：

值	含义
`true`	使用模型自带的 chat template 自动格式化对话输入
`false`	不使用模板，需要手动构造完整的 prompt

target_modules

找不到更多的信息

是用来指定哪些模块将接入 LoRA 或其他 tuner 的核心参数

默认为all-linear. 在LLM和多模态LLM中，其行为有所不同. 若是LLM则自动寻找除lm_head外的linear并附加tuner，若是多模态LLM，则默认只在LLM上附加tuner，该行为可以被freeze_llm、freeze_vit、freeze_aligner控制。该参数不限于LoRA，可用于其他tuners。

gradient_accumulation_steps

它表示在更新模型参数之前，累计多少个 batch 的梯度后再进行一次参数更新。

通俗地说：

通常情况下，每处理一个 batch 就计算梯度并更新一次模型；
如果你设置 gradient_accumulation_steps = N，那么会先计算 N 个 batch 的梯度，把它们累加起来，再做一次参数更新；
这样可以“模拟”出更大的 batch size，而不会占用过多显存。

假设你设置如下参数：

{"per_device_train_batch_size": 4,"gradient_accumulation_steps": 8
}

那么：

每次只用 4 个样本前向/反向传播；
累积 8 次之后才更新一次参数；
相当于总 batch size 是 4 × 8 = 32；
显存消耗只相当于 batch size = 4，但训练效果接近 batch size = 32。

save_steps

它表示在训练过程中，每隔多少个 step 保存一次模型的当前状态（权重、优化器状态等），默认值 500

通俗地说：

每训练一定数量的 batch（即 step），就将模型保存下来；
这样即使训练中断，也可以从最近的 checkpoint 继续训练；
同时也方便你选择验证效果最好的模型。

假设你设置：

"save_steps": 100

那么：

每训练 100 个 step，就会保存一次模型；
如果你总共训练 1000 个 step，就会保存 10 次（step_100、step_200、...、step_1000）；

save_total_limit

它表示在整个训练过程中最多保留多少个模型检查点（checkpoint），超出部分会被自动删除

通俗地说：

每次保存模型时（比如每隔 save_steps 步），都会生成一个 checkpoint；
如果你设置了 save_total_limit = 2，那么最多只保留最近的两个模型文件；
较早的 checkpoint 会被自动清理掉，以节省磁盘空间；

gradient_checkpointing_kwargs

它用于指定在启用梯度检查点时的一些高级选项，通常是为了进一步节省显存（GPU 内存）占用，默认为 None

🔍 什么是梯度检查点（Gradient Checkpointing）？

这是一个深度学习训练优化技术，它的核心思想是：

在前向传播时只保留部分中间激活值；
反向传播时重新计算这些激活值，而不是全部保存；
这样可以显著减少显存占用，代价是增加了计算时间。

使用建议总结：

目标	建议做法
节省内存（显存不够）	启用`gradient_checkpointing`
提高训练效率	设置`"use_reentrant": false`（新版推荐）
兼容老模型	设置`"use_reentrant": true`
大模型微调（如 LLaMA、InternLM）	强烈建议开启并合理配置

logging_steps

它表示每隔多少个训练步（step），就将当前的训练状态（如 loss、学习率等）打印到控制台或写入日志文件一次，默认为5

通俗地说：

每训练一定数量的 batch，模型会输出一次训练信息；
这些信息通常包括：当前 step、loss、学习率、运行时间等；
方便你监控训练过程和调试模型表现。

dataloader_num_workers

它表示 PyTorch DataLoader 在加载训练或验证数据时使用的子进程数量。

通俗地说：

数据从磁盘读取、预处理、打乱、批处理等操作通常不是由主训练线程完成的；
这些工作是由多个“worker”子进程并行完成的；
dataloader_num_workers 就是用来指定使用多少个这样的子进程来加速数据加载。

ms-swift 部分命令行参数说明

参考链接命令行参数 — swift 3.6.0.dev0 文档 Qwen Chat num_train_epochs 训练的epoch数，默认为3 假设你有 1000 条训练样本，并且设置了： num_train_epochs 3 这意味着： 模型会完整地遍历这 1000 条数据 3 次。每一次…...

编程日记 2025/8/24 7:54:50

【学习笔记】深入理解Java虚拟机学习笔记——第10章前端编译与优化

第10章前端编译与优化 10.1 概述 1>前端编译器：Javac命令。【.java文件->.class文件】 2>即时编译器：Hotspot.C1.C2 【.class文件->机器码】 3>提前编译器：JDK的Jaotc等【.java->机器码】 10.2 Javac 编译器 10.2.1 …...

编程日记 2025/8/20 15:40:15

删除node并且重装然后重装vue

参考第一篇文章 node.js卸载与安装超详细教程_node卸载重装-CSDN博客第二篇文章安装vue Vue安装与配置教程（非常详细）_安装vue-CSDN博客...

编程日记 2025/8/22 4:27:44

Flink源码阅读环境准备全攻略：搭建高效探索的基石

想要深入探索Flink的底层原理，搭建一套完整且适配的源码阅读环境是必经之路。这不仅能让我们更清晰地剖析代码逻辑，还能在调试过程中精准定位关键环节。接下来，结合有道云笔记内容，从开发工具安装、源码获取导入到调试配置&#x…...

编程日记 2025/8/23 19:51:33

【破局痛点，赋能未来】领码 SPARK：铸就企业业务永续进化的智慧引擎—— 深度剖析持续演进之道，引领数字化新范式

摘要在瞬息万变的数字时代，企业对业务连续性、敏捷创新及高效运营的需求日益迫切。领码 SPARK 融合平台，秉持“持续演进”这一核心理念，以 iPaaS 与 aPaaS 为双擎驱动，深度融合元数据驱动、智能端口调度、自动化灰度切换、AI 智…...

编程日记 2025/8/22 5:56:34

Flink SQL Connector Kafka 核心参数全解析与实战指南

Flink SQL Connector Kafka 是连接Flink SQL与Kafka的核心组件，通过将Kafka主题抽象为表结构，允许用户使用标准SQL语句完成数据读写操作。本文基于Apache Flink官方文档（2.0版本），系统梳理从表定义、参数配置到实战调优…...

编程日记 2025/8/24 2:40:29

Linux 服务器运维：磁盘管理与网络配置

🤵‍♂️ 个人主页：布说在见 ✍🏻作者简介： 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话， 欢迎评论 💬点赞👍🏻 收藏…...

编程日记 2025/8/23 18:18:09

PyTorch 入门学习笔记

目录 1 张量 1）张量的初始化和属性 2）张量操作 3）使用 NumPy 进行桥接 2 torch.autograd 1）背景 2）在 PyTorch 中的使用 3）Autograd 的微分机制 4）计算图原理 3 神经网络 1&#xff…...

编程日记 2025/8/23 18:28:22

9大策略深度解析MySQL多表JOIN性能优化

一、多表JOIN的现实挑战在实际开发中，MySQL多表JOIN场景主要源于两类场景： • 历史遗留系统：老代码中未严格遵循范式设计的SQL语句• 数据库迁移：从Oracle迁移至MySQL时保留的复杂关联查询这类操作潜藏多重风险： …...

编程日记 2025/8/22 8:43:50

CSS 逐帧动画

CSS 逐帧动画实现指南逐帧动画(frame-by-frame animation)是一种通过快速连续显示一系列静态图像来创造运动效果的技术。以下是使用CSS实现逐帧动画的几种方法。 1. 使用 steps() 计时函数这是实现逐帧动画最常用的方法，通过animation-timing-function的steps(…...

编程日记 2025/8/23 12:09:51

UE5 游戏模板 —— ThirdPersonGame

UE5 游戏模板 —— ThirdPersonGame 前言一、初始化旋转控制参数1.参数一2.参数二3.参数三4.参数四二、输入系统总结前言有了前面的铺垫，第三人称模板简直是手到擒来了，我们只需要注意一些初始化的变量是做什么的即可，因为UE的Character …...

编程日记 2025/8/23 16:36:12

java中关于异步转同步的一些解决方案的对比与思考。【spring mvc堵塞式】

文章目录 1、Spring MVC堵塞式编程中的技术方案a） 最简单的方案，使用 DeferredResult 代码如下，代码解读：最终控制台输出如下。用户收到的结果 b) 上点难度，使用redis监听事件，根据事件的不同返回不同的数据…...

编程日记 2025/8/22 22:06:42

【数据结构与算法】数据结构核心概念系统梳理

第一章绪论：基础概念体系 🚩算法：问题求解步骤的描述。 🚩非递归的算法效率更高。 1.1 逻辑结构 vs 存储结构维度逻辑结构存储结构（物理结构）定义数据元素之间的逻辑关系数据结构在计算机中的实现方式分类线性/树形/图/集合顺序/链式/索引/散列独立性独立于存储结构…...

编程日记 2025/8/21 4:08:36

《HTTP权威指南》第7章缓存

带着问题学习： 缓存如何提高性能如何衡量缓存的有效性缓存置于何处作用最大HTTP如何保持缓存副本的新鲜度缓存如何与其他缓存及服务器通信 web缓存是可以自动保存常见文档副本的HTTP设备。缓存优点减少冗余的数据传输，节省网络费用缓解网络瓶颈问题&…...

编程日记 2025/8/23 2:42:14

【Zephyr 系列 28】MCU 闪存文件系统详解：LittleFS + NVS + 块设备设计实战

🧠关键词：Zephyr 文件系统、LittleFS、NVS、Flash 分区、嵌入式存储、断电保护、wear leveling 📌 1. 为什么 MCU 上需要文件系统？ 在嵌入式开发中，很多开发者起初直接操作 Flash 保存参数，但随着需求增长…...

编程日记 2025/8/20 13:05:47

ICML 2025 | 时间序列(Time Series)论文总结

ICML 2025将在2025年7月13日至7月19日（周六）在温哥华会议中心举行，本文总结了ICML 2025有关时间序列(Time Series)相关文章，共计63篇。时间序列Topic：预测，分类，异常检测，生成&…...

编程日记 2025/8/23 2:36:16

理解后端开发中的中间件（以gin框架为例）

中间件(Middleware)是后端开发中的一个核心概念，它在请求(Request)和响应(Response)之间扮演着桥梁角色。以下是关于中间件的详细解释： 基本概念中间件是在请求到达最终处理程序之前或响应返回客户端之前执行的一系列函数或组件。它可以： 访…...

编程日记 2025/8/20 19:23:53

【分布式技术】Bearer Token以及MAC Token深入理解

Bearer Token以及MAC Token深入理解 **Bearer Token 详解****1. 什么是 Bearer Token？****2. Bearer Token 的构建详情****（1）生成流程****（2）Token 示例（JWT）****（3）Tok…...

编程日记 2025/8/22 23:51:54

WebRTC（七）：媒体能力协商

目的在 WebRTC 中，每个浏览器或终端支持的音视频编解码器、分辨率、码率、帧率等可能不同。媒体能力协商的目的就是： 确保双方能“听得懂”对方发的媒体流；明确谁发送、谁接收、怎么发送；保障连接的互操作性和兼容性。 P2P的基…...

编程日记 2025/8/21 6:54:21

（线性代数最小二乘问题）Normal Equation（正规方程）

Normal Equation（正规方程） 是线性代数中的一个重要概念，主要用于解决最小二乘问题（Least Squares Problem）。它通过直接求解一个线性方程组，找到线性回归模型的最优参数（如权重或系数&#xff…...

编程日记 2025/8/21 5:20:36

【机器学习】数学基础——标量

目录一、标量的定义二、标量的核心特征：无方向的纯粹量级 2.1 标量 vs 矢量直观对比三、标量的数学本质：零阶张量 3.1 张量阶数金字塔 3.2 标量的数学特性四、现实世界的标量图谱 4.1 常见标量家族 4.2 经典案例解析五、标量的运算奥秘…...

编程日记 2025/8/23 13:32:56

基于python代码的通过爬虫方式实现TK下载视频（2025年6月）

Tk的视频页面通常需要登录才能获取完整数据，但通过构造匿名游客的请求，我们可以绕过登录限制，提取视频的元信息（如标题、ID和播放地址）。核心思路如下：构造匿名Cookie：通过模拟浏览器的请求，获取Tk服务器分配的游客Cookie。解析网页：利用BeautifulSoup解析HTML，定位…...

编程日记 2025/8/21 18:14:12

Go 语言的堆糖图片爬虫

基于 Go 语言的堆糖图片爬取探索之旅在互联网的浩瀚海洋中，堆糖网以其丰富多样的高清图片、美图壁纸等内容吸引了众多用户。对于图片爱好者来说，能高效获取心仪的图片资源无疑是一件极具吸引力的事情。今天，就带大家走进一段基于 Go 语言的…...

编程日记 2025/8/23 21:52:26

python+uni-app基于微信小程序的儿童安全教育系统

文章目录具体实现截图本项目支持的技术路线源码获取详细视频演示：文章底部获取博主联系方式！！！！本系统开发思路进度安排及各阶段主要任务java类核心代码部分展示主要参考文献：源码获取/详细视频演示 ##项目…...

编程日记 2025/8/23 20:40:31

DAY 39 图像数据与显存

图像数据的格式：灰度和彩色数据模型的定义显存占用的4种地方模型参数梯度参数优化器参数数据批量所占显存神经元输出中间状态 batchisize和训练的关系 import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader ,…...

编程日记 2025/8/24 6:15:27

1、elasticsearch和kibana搭建配置见 https://blog.csdn.net/yh_zeng2/article/details/148812447?spm1001.2014.3001.5501 2、logstash 下载下载和elasticsearch版本一致的logstash，下载地址： Past Releases of Elastic Stack Software | Elastic …...

编程日记 2025/8/23 23:08:28

【ELK(Elasticsearch+Logstash+Kibana) 从零搭建实战记录：日志采集与可视化】

ELK(ElasticsearchLogstashKibana) 从零搭建实战记录：日志采集与可视化本文记录了我在搭建ELK(Elasticsearch, Logstash, Kibana)技术栈时的完整实战过程。使用Docker Compose快速搭建了ELK服务端（监控主机），并通过Filebeat实现…...

编程日记 2025/8/23 1:57:41

反无人机系统：技术利刃如何守护低空安全？

反无人机系统：技术利刃如何守护低空安全？ ——从军事防御到城市安防的全景解析一、技术体系：从“电磁软杀伤”到“激光硬摧毁”的立体防御网反无人机技术本质是一场“降维打击”：用百万级防御系统对抗千元级消费无人机。当前…...

编程日记 2025/8/23 10:14:20

第十章——8天Python从入门到精通【itheima】-102-Python基础综合案例-数据可视化（pyecharts的入门使用+数据处理）

目录 102节——pyecharts的入门使用 1.学习目标 2.pyecharts入门——基础折线图 3.pyecharts的配置对象有哪些？ 4.全局配置——set_global_opts 5.小节总结 103节——数据处理 1.学习目标 2.无法继续关于第一阶段的pyecharts的相关学习因为关于JSON数据获…...

编程日记 2025/8/24 4:56:59

Neo4j 中存储和查询数组数据的完整指南

Neo4j 中存储和查询数组数据的完整指南图形数据库 Neo4j 不仅擅长处理节点和关系，还提供了强大的数组(Array)存储和操作能力。本文将全面介绍如何在 Neo4j 中高效地使用数组，包括存储、查询、优化以及实际应用场景。数组在 Neo4j 中的基本使用数组…...

编程日记 2025/8/21 11:07:14

云原生/容器相关概念记录

文章目录网络与虚拟化技术云平台与架构容器与编排容器网络方案性能优化与工具硬件与协议网络与虚拟化技术 P4可编程网关 P4: Programming Protocol-independent Packet Processors一种基于P4语言的可编程网络设备，支持自定义数据包处理逻辑。P4可编程技术详解&am…...

编程日记 2025/8/22 20:37:50

uni-app项目实战笔记21--uniapp缓存的写入和读取

一、缓存的写入 uni.setStorageSync("storageClassList",classifyList.value) 二、缓存的读取，如果缓存不存在，则返回空数组 const storageClassList uni.getStorageSync("storageClassList") || []; 三、对读取到的数据进行转…...

编程日记 2025/8/24 2:14:09

操作系统概述

覆盖了操作系统概述、运行机制、中断、异常、操作系统的五大结构、虚拟机。借鉴：王道、我的好朋友杨某、我的笔记。一、操作系统概念概念 1.操作系统体现了封装思想由于底层硬件只接受二进制的指令不方便用户操作，所以操作系统把这些封装成简易的…...

编程日记 2025/8/22 20:08:39

探索数据的力量：Elasticsearch中指定链表字段的统计查询记录

目录一、基本的数据结构说明二、基本的统计记录 （一）统计当前索引中sellingProducts的所有类型 （二）检索指定文档中sellingProducts的数据总量 （三）检索指定文档中sellingProducts指定类型的数量统计…...

编程日记 2025/8/20 18:53:19

【Datawhale组队学习202506】YOLO-Master task03 IOU总结

系列文章目录 task01 导学课程 task02 YOLO系列发展线文章目录系列文章目录前言1 功能分块1.1 骨干网络 Backbone1.2 颈部网络 Neck1.3 头部网络 Head1.3.1 边界框回归头1.3.2 分类头 2 关键概念3 典型算法3.1 NMS3.2 IoU 总结前言 Datawhale是一个专注于AI与数据科学的开…...

编程日记 2025/8/23 19:58:44

C/C++数据结构之静态数组

概述静态数组是C/C中一种基础的数据结构，它允许用户在编译时便确定数组的大小，并分配固定数量的连续存储空间来存放相同类型的元素。静态数组的主要特点是：其大小在声明时就必须指定，且在其生命周期内保持不变。这也意味着&#…...

编程日记 2025/8/23 8:33:21

pyqt f-string

文章目录一、f-string的基本语法二、代码中的具体应用拼接效果三、f-string的核心优势四、与其他字符串格式化方式的对比五、在Qt程序中的实际作用六、扩展用法：在f-string中添加格式说明 Python的 f-string（格式化字符串字面值） 特性&…...

编程日记 2025/8/23 16:06:41

夏普 AR-2348SV 打印机信息

基本信息：这是一款黑白 A3 激光多功能数码复合机，可实现打印、复印、扫描功能。性能参数打印 / 复印速度：23 张 / 分钟。分辨率：600x600dpi，能确保文字和图像清晰。最大打印 / 复印尺寸：A3。纸张支持&…...

编程日记 2025/8/23 8:44:47

跨个体预训练与轻量化Transformer在手势识别中的应用：Bioformer

目录一、从深度学习到边缘部署，手势识别的新突破 （一）可穿戴设备边缘计算个性化医疗新可能 （二）肌电信号（sEMG）：手势识别的关键媒介 （三）挑战&#…...

编程日记 2025/8/21 12:49:12

探索常识性概念图谱：构建智能生活的知识桥梁

目录一、知识图谱背景介绍 （一）基本背景 （二）与NLP的关系 （三）常识性概念图谱的引入对比二、常识性概念图谱介绍 （一）常识性概念图谱关系图示例 （二&#xff09…...

编程日记 2025/8/22 18:19:14

人人都是音乐家？腾讯开源音乐生成大模型SongGeneration

目录前言一、SongGeneration 带来了什么？ 1.1 文本控制与风格跟随：你的想法，AI 精准实现 1.2 多轨生成：从“成品”到“半成品”的巨大飞跃 1.3 开源：推倒“高墙”，共建生态二、3B 参数如何媲美商业…...

编程日记 2025/8/20 15:57:10

一，python语法教程.内置API

一，字符串相关API string.strip([chars])方法：移除字符串开头和结尾的空白字符（如空格、制表符、换行符等），它不会修改原始字符串，而是返回一个新的处理后的字符串 chars（可选）&…...

编程日记 2025/8/23 15:10:21

python中学物理实验模拟：凸透镜成像和凹透镜成像

python中学物理实验模拟：凸透镜成像和凹透镜成像凸透镜成像凸透镜是指中间厚、边缘薄的透镜。它对光线有会聚作用，即光线通过凸透镜后会向主光轴方向偏折。成像原理基于光的折射，平行于主光轴的光线经凸透镜折射后会聚于焦点&#xff…...

编程日记 2025/8/23 19:50:29

【AGI】突破感知-决策边界：VLA-具身智能2.0

突破感知-决策边界：VLA-具身智能2.0 （一）技术架构核心（二）OpenVLA：开源先锋与性能标杆（三）应用场景：从实验室走向真实世界（四）挑战与未来方向&…...

编程日记 2025/8/24 7:09:38

2D曲线点云平滑去噪

2D曲线点云，含许多噪声，采用类似移动最小二乘的方法（MLS)分段拟合抛物线并投影至抛物线，进行点云平滑去噪。更通俗的说法是让有一定宽度的曲线点云，变成一条细曲线上的点。分两种情况进行讨论： 1&#…...

编程日记 2025/8/23 23:54:44

靶场（二十一）---小白心得靶场体会---DVR4

先看端口，看到了一个dvr的服务，老规矩只要有服务就先去看看 PORT STATE SERVICE VERSION 22/tcp open ssh Bitvise WinSSHD 8.48 (FlowSsh 8.48; protocol 2.0; non-commercial use) | ssh-hostkey: | 3072 21:25:f0:53:b4…...

编程日记 2025/8/24 5:57:28

Qt + C++ 入门2(界面的知识点)

补充前面没有说到的一点就是，qt的页面你可以用qt自带的也就是前面所说的自动生成.UI文件生成前端所谓的界面，然后往里面拖控件就可以了，这个UI界面非常的适合用于新手，以及某些软件少量的界面应用。但是有一个难点就是后期这个UI…...

编程日记 2025/8/24 5:09:36

计算机网络第九章——数据链路层《流量控制和可靠传输》

一、回顾概念前面上一章讲了数据链路层的《差错控制》，那么回顾一下差错控制和可靠传输的区别： 差错控制：发现一个帧里的【位错（比特错）】检错（奇偶校验码、CRC循环冗余校验码）：接…...

编程日记 2025/8/23 11:22:29

Zephyr 调试实用指南：日志系统、Shell CLI 与 GDB 全面解析

本文深入讲解 Zephyr 的调试利器，包括统一日志系统（logging subsystem）、内置命令行（Shell CLI）、与 GDB 调试集成方法，帮助开发者快速定位问题、分析运行时行为，实现高效开发与排障。一、日志…...

编程日记 2025/8/21 13:59:32

【知识图谱提取】【阶段总结】【LLM4KGC】LLM4KGC项目提取知识图谱推理部分

文章目录前言LLM4KGC的三个部分显卡使用效果前言之前在学习基于大模型的知识图谱提取，就找到了LLM4KGC这个项目：项目地址： https://github.com/ChristopheCruz/LLM4KGC/ 总体来说，这个项目没有什么比较高深的idea，年份也比较古老，但确实挺适合入手的。主要是绝对简…...

编程日记 2025/8/22 16:10:23

场景	推荐`lora_alpha`值
默认推荐	`lora_alpha = 2 × lora_rank`
小模型（<1B）	`8 ~ 32`
大模型（>10B，如 InternLM-7B）	`16 ~ 64`

场景	推荐`gradient_accumulation_steps`值
单卡 A10 / RTX 3090 / L40（24G 显存）	1 ~ 4（batch 较大时可不累积）
单卡 T4 / V100（16G 显存）	4 ~ 8
单卡 RTX 3060 / 2080（12G 显存）	8 ~ 16
显存非常紧张	可设为 32 或更高（牺牲训练速度）

场景	推荐`save_steps`值
小数据集 / 快速实验	50 ~ 100
中等规模训练	500 ~ 1000
大规模预训练任务	1000 ~ 10000
需要频繁备份	设置为较小值（如 50）

num_train_epochs

为什么需要多个 epoch？

per_device_train_batch_size

为什么这个参数重要？

建议

learning_rate

🔍 学习率的影响：

建议

1. 图像分类任务（如 CIFAR-10、ImageNet）

2. 自然语言处理（NLP）任务

3. 强化学习

4. 大规模预训练模型微调（Fine-tuning）

warmup_ratio

公式解释：

split_dataset_ratio

lora_rank

lora_alpha

推荐值范围：

use_chat_template

参数值说明：

target_modules

gradient_accumulation_steps

推荐值范围（根据硬件配置）：

save_steps

推荐值范围（根据训练规模）：

save_total_limit

gradient_checkpointing_kwargs

🔍 什么是梯度检查点（Gradient Checkpointing）？

使用建议总结：

logging_steps

dataloader_num_workers

相关文章：