当前位置：首页 > news >正文

【教程】PyTorch多机多卡分布式训练的参数说明 | 附通用启动脚本

news 来源：原创 2025/8/26 19:39:30

转载请注明出处：小锋学长生活大爆炸[xfxuezhagn.cn]

如果本文帮助到了你，欢迎[点赞、收藏、关注]哦~

torchrun

一、什么是 torchrun

二、torchrun 的核心参数讲解

三、torchrun 会自动设置的环境变量

四、torchrun 启动过程举例

机器 A（node_rank=0）上运行

机器 B（node_rank=1）上运行

五、小结表格

PyTorch

一、背景回顾

二、init_process_group

三、脚本中通常的典型写法

通用启动脚本

torchrun 与 torch.multiprocessing.spawn 的对比可以看这篇：

【知识】torchrun 与 torch.multiprocessing.spawn 的对比

`torchrun`

一、什么是 `torchrun`

torchrun 是 PyTorch 官方推荐的分布式训练启动器，它的作用是：

启动 多进程分布式训练（支持多 GPU，多节点）
自动设置每个进程的环境变量
协调节点之间建立通信

二、`torchrun` 的核心参数讲解

torchrun \--nnodes=2 \--nproc_per_node=2 \--node_rank=0 \--master_addr=192.168.5.228 \--master_port=29400 \xxx.py

🔹 1. --nnodes（Number of Nodes）

表示参与训练的总机器数。
你有几台服务器，就写几。
在分布式训练中，一个 node 就是一台物理或虚拟的主机。
node的编号从0开始。

✅ 例子：你用 2 台机器 → --nnodes=2

🔹 2. --nproc_per_node（Processes Per Node）

表示每台机器上要启动几个训练进程。
一个进程对应一个 GPU，因通常设置为你机器上要用到的GPU数。
因此，整个分布式环境下，总训练进程数 = nnodes * nproc_per_node

✅ 例子：每台机器用了 2 张 GPU → --nproc_per_node=2

🔹 3. --node_rank

表示当前机器是第几台机器。
从 0 开始编号，必须每台机器都不同！

✅ 例子：

机器 IP	node_rank
192.168.5.228	0
192.168.5.229	1

🔹 4. --master_addr 和 --master_port

指定主节点的 IP 和端口，用于 rendezvous（进程对齐）和通信初始化。
所有机器必须填写相同的值！

✅ 建议：

master_addr 就是你指定为主节点的那台机器的 IP
master_port 选一个未被占用的端口，比如 29400

三、torchrun 会自动设置的环境变量

当用 torchrun 启动后，它会自动给每个进程设置这些环境变量：

环境变量	含义
`RANK`	当前进程在全局中的编号（0 ~ world_size - 1）
`LOCAL_RANK`	当前进程在本机中的编号（0 ~ nproc_per_node - 1）
`WORLD_SIZE`	总进程数 = `nnodes * nproc_per_node`

你可以在训练脚本里用 os.environ["RANK"] 来读取这些信息：

import os
rank = int(os.environ["RANK"])
local_rank = int(os.environ["LOCAL_RANK"])
world_size = int(os.environ["WORLD_SIZE"])

示例分配图：

四、torchrun 启动过程举例

假设：

有 2 台机器
每台机器有 2 个 GPU
总共会启动 4 个进程

机器 A（node_rank=0）上运行

torchrun \--nnodes=2 \--nproc_per_node=2 \--node_rank=0 \--master_addr=192.168.5.228 \--master_port=29400 \xxx.py

机器 B（node_rank=1）上运行

torchrun \--nnodes=2 \--nproc_per_node=2 \--node_rank=1 \--master_addr=192.168.5.228 \--master_port=29400 \xxx.py

torchrun 给每个进程编号的顺序（分配 RANK / LOCAL_RANK）

torchrun 按照每台机器上 node_rank 的顺序，并在每台机器上依次启动 LOCAL_RANK=0, 1, ..., n-1，最后合成 RANK。

RANK = node_rank × nproc_per_node + local_rank

Step 1：按 node_rank 升序处理（node 0 → node 1）

Step 2：每个 node 内部从 local_rank=0 开始递增

本质上：torchrun 是主从结构调度的

所有 node 启动后，都会和 master_addr 通信。

master 会统一收集所有 node 的状态。

每个 node 根据你给的 node_rank 自行派生 local_rank=0~n-1

所有节点通过 RANK = node_rank * nproc_per_node + local_rank 得到自己的全局编号。

这个机制是 可预测、可控、可复现 的。

📦 node_rank=0 (机器 1)
├── local_rank=0 → RANK=0
└── local_rank=1 → RANK=1

📦 node_rank=1 (机器 2)
├── local_rank=0 → RANK=2
└── local_rank=1 → RANK=3

最终分配：

Node Rank	Local Rank	Global Rank (`RANK`)	使用 GPU
0	0	0	0
0	1	1	1
1	0	2	0
1	1	3	1

五、小结表格

参数	作用	设置方式
`--nnodes`	总节点数	你写在命令里
`--nproc_per_node`	每台节点的进程数（= GPU 数）	你写在命令里
`--node_rank`	当前机器编号（0开始）	每台机器唯一
`--master_addr`	主节点 IP（所有节点需一致）	你设置
`--master_port`	主节点端口（所有节点需一致）	你设置
`RANK`	当前进程在所有进程中的编号	`torchrun` 自动设置
`LOCAL_RANK`	当前进程在本节点上的编号	`torchrun` 自动设置
`WORLD_SIZE`	总进程数 = `nnodes * nproc_per_node`	自动设置

PyTorch

PyTorch 的分布式通信是如何通过 init_process_group 与 torchrun 生成的环境变量配合起来工作的。

一、背景回顾

你已经用 torchrun 启动了多个训练进程，并且 torchrun 为每个进程自动设置了这些环境变量：

变量名	含义
`RANK`	当前进程的全局编号（从 0 开始）
`LOCAL_RANK`	本机上的编号（一般等于 GPU ID）
`WORLD_SIZE`	总进程数
`MASTER_ADDR`	主节点的 IP
`MASTER_PORT`	主节点用于通信的端口

那么 这些变量是如何参与进程通信初始化的？ 这就涉及到 PyTorch 的核心函数：

二、`init_process_group`

torch.distributed.init_process_group 是 PyTorch 初始化分布式通信的入口：

torch.distributed.init_process_group(backend="nccl",  # 或者 "gloo"、"mpi"init_method="env://",  # 通过环境变量读取设置
)

关键点：

backend="nccl"：推荐用于 GPU 分布式通信（高性能）
init_method="env://"：表示通过环境变量来初始化

你不需要自己设置 RANK / WORLD_SIZE / MASTER_ADDR，只要写：

import torch.distributed as distdist.init_process_group(backend="nccl", init_method="env://")

PyTorch 会自动去环境中读这些变量：

RANK → 当前进程编号
WORLD_SIZE → 总进程数
MASTER_ADDR、MASTER_PORT → 主节点 IP 和端口

然后就能正确初始化所有通信进程。

三、脚本中通常的典型写法

import os
import torch# 初始化 PyTorch 分布式通信环境
torch.distributed.init_process_group(backend="nccl", init_method="env://")# 获取全局/本地 rank、world size
rank = int(os.environ.get("RANK", -1))
local_rank = int(os.environ.get("LOCAL_RANK", -1))
world_size = int(os.environ.get("WORLD_SIZE", -1))# 设置 GPU 显卡绑定
torch.cuda.set_device(local_rank)
device = torch.device("cuda")# 打印绑定信息
print(f"[RANK {rank} | LOCAL_RANK {local_rank}] Using CUDA device {torch.cuda.current_device()}: {torch.cuda.get_device_name(torch.cuda.current_device())} | World size: {world_size}")

这段代码在所有进程中都一样写，但每个进程启动时带的环境变量不同，所以最终 rank、local_rank、world_size 就自然不同了。

通用启动脚本

#!/bin/bash# 设置基本参数
MASTER_ADDR=192.168.5.228           # 主机IP
MASTER_PORT=29400                   # 主机端口
NNODES=2                            # 参与训练的总机器数
NPROC_PER_NODE=2                    # 每台机器上的进程数# 所有网卡的IP地址，用于筛选
ALL_LOCAL_IPS=$(hostname -I)
# 根据本机 IP 配置通信接口
if [[ "$ALL_LOCAL_IPS" == *"192.168.5.228"* ]]; thenNODE_RANK=0                       # 表示当前机器是第0台机器IFNAME=ens1f1np1  mytorchrun=~/anaconda3/envs/dglv2/bin/torchrun
elif [[ "$ALL_LOCAL_IPS" == *"192.168.5.229"* ]]; thenNODE_RANK=1                       # 表示当前机器是第1台机器IFNAME=ens2f1np1mytorchrun=/opt/software/anaconda3/envs/dglv2/bin/torchrun
elseexit 1
fi# 设置 RDMA 接口
export NCCL_IB_DISABLE=0            # 是否禁用InfiniBand
export NCCL_IB_HCA=mlx5_1           # 使用哪个RDMA接口进行通信
export NCCL_SOCKET_IFNAME=$IFNAME   # 使用哪个网卡进行通信
export NCCL_DEBUG=INFO              # 可选：调试用
export GLOO_IB_DISABLE=0            # 是否禁用InfiniBand
export GLOO_SOCKET_IFNAME=$IFNAME   # 使用哪个网卡进行通信
export PYTHONUNBUFFERED=1           # 实时输出日志# 启动分布式任务
$mytorchrun \--nnodes=$NNODES \--nproc_per_node=$NPROC_PER_NODE \--node_rank=$NODE_RANK \--master_addr=$MASTER_ADDR \--master_port=$MASTER_PORT \cluster.py## 如果想获取准确报错位置，可以加以下内容，这样可以同步所有 CUDA 操作，错误不会“延迟触发”，你会看到确切是哪一行代码出了问题：
## CUDA_LAUNCH_BLOCKING=1 torchrun ...

【教程】PyTorch多机多卡分布式训练的参数说明 | 附通用启动脚本

转载请注明出处：小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你，欢迎[点赞、收藏、关注]哦~ 目录 torchrun 一、什么是 torchrun 二、torchrun 的核心参数讲解三、torchrun 会自动设置的环境变量四、torchrun 启动过程举例机器 A&#…...

编程日记 2025/8/26 19:39:30

九、自动化函数02

// 进阶版本的屏幕截图 void getScreenShot(String str) throws IOException {// ./src/test/image/ 存放图片路径// 屏幕截图SimpleDateFormat sim1 new SimpleDateFormat("yyyy-MM-dd");SimpleDateFormat sim2 new SimpleDateFormat("HHmmss");Str…...

编程日记 2025/8/26 7:20:05

构建批量论文格式修改系统：从内容识别到自动化处理

在学术研究和论文管理中，自动化处理论文格式是一个极具挑战性但非常有价值的任务。无论是提取论文的关键信息，还是批量修改格式，都需要一个强大的内容识别系统作为基础。本文将结合两份代码（paper_parser.py 和 paper_analyzer.py），深入分析它们如何实现论文内容的识别，…...

编程日记 2025/8/25 23:49:19

站台候车，好奇铁道旁的碎石（道砟）为何总是黄色的？

一、发现问题同学们在站台等车时有没有发现，铁道旁的小石子很多都是黄色的，有部分为白色，像上图这样，这是为什么呢？是石头原生为黄色，还是因为其他原因变成了红黄色？是从灰白色变为了红黄色吗&…...

编程日记 2025/8/26 3:33:27

Oracle PL/SQL 中，异常（Exception）

在 Oracle PL/SQL 中，异常（Exception） 是处理运行时错误的机制，能够将错误逻辑与业务逻辑解耦，保证程序的健壮性和可维护性。以下从原理和案例两个方面详细解析一、异常处理的核心原理 1. 异常触发机制自动触发…...

编程日记 2025/8/25 14:04:19

OpenCV学习之获取图像所有点的坐标位置（二）

1.功能介绍（1）使用openCV解析了.jpeg、.jpg、.png格式的图像文件，输出了图像的宽、高、通道数；（2）创建txt格式文件，保存图像中各像素点的rgba值。 2.环境介绍操作系统:window10 开发语言：visual studio 2015 c++ 3.功能实现过程 3.1环境设置（1）打开Vs2015…...

编程日记 2025/8/26 19:39:29

代码随想录算法训练营Day30 | 01背包问题（卡码网46. 携带研究材料）、Leetcode416.分割等和子集

代码随想录算法训练营Day30 | 01背包问题（卡码网46. 携带研究材料）、Leetcode416.分割等和子集一、01背包问题相关题目：卡码网46. 携带研究材料文档讲解：01背包问题（二维）、01背包问题（一维…...

编程日记 2025/8/26 10:49:33

opencv 形态学变换

形态学变换 1. 核2.腐蚀（cv2.erode）3. 膨胀（cv2.dilate）4. 开运算（cv.MORPH_OPEN）5. 闭运算（cv2.MORPH_CLOSE）6. 礼帽运算（找出增多的白色区域）7. 黑帽运算8.…...

编程日记 2025/8/24 6:45:22

视频设备轨迹回放平台EasyCVR打造水库大坝智慧安防视频监控智能分析方案

一、项目背景水库安全度汛是全国防汛抗洪工作的重点，水库监控系统对保障水库安全、及时排险意义重大。多数水库站点分散、位置偏，地形复杂，与监控中心相隔较远。传统有线监控系统成本高、工期长，遇山河等阻碍时布线困难&…...

编程日记 2025/8/26 4:37:01

使用 LLaMA-Factory 对 DeepSeek R1进行微调教程

如本教程有问题，感谢大家在评论区指出。如操作过程中遇到解决不了的问题，可以在评论区提问，作者看到了会回复。微调简介模型微调通过在特定任务数据集上继续训练预训练模型来进行，使得模型能够学习到与任务相关的特定领域知识…...

编程日记 2025/8/25 17:03:34

【Kubernetes基础--Pod深入理解】--查阅笔记2

深入理解Pod 为什么要有个Pod1. 容器协作与资源共享2. 简化调度和资源管理3. 设计模式支持 Pod 基本用法Pod 容器共享 VolumePod 的配置管理ConfigMap 概述创建 ConfigMap 资源对象在 Pod 中使用 ConfigMap使用 ConfigMap 的限制条件为什么要有个Pod Pod 的引入并非技术冗余&…...

编程日记 2025/8/26 13:47:44

C语言进阶之自定义类型：结构体，枚举，联合

结构体结构体类型的声明结构的基础知识结构是一些值的集合，这些值称为成员变量。结构的每个成员可以是不同类型的变量。结构的声明 struct tag{member-list;}variable-list;例如描述一个学生： struct Stu{char name[20];//名字int age;//年龄ch…...

编程日记 2025/8/26 15:51:15

深入解析C++引用：安全高效的别名机制及其与指针的对比

一、引用的核心概念 1.1 引用定义引用（Reference）是C为变量创建的别名，通过&符号声明。其核心特性： 指针适用场景： 现代C黄金法则： "引用是指针的安全马甲，而智能指针是带着安全帽的…...

编程日记 2025/8/26 14:48:18

【rdma通信名词概念】

rdma通信名词概念 1.在rdma网卡中，QP(SQ和RQ)、CQ、EQ和SQR的含义是什么以及功能是什么？2 PCIe中的MSI-X中断机制？ 1.在rdma网卡中，QP(SQ和RQ)、CQ、EQ和SQR的含义是什么以及功能是什么？ QP：queue pair&am…...

编程日记 2025/8/25 23:34:32

Mysql主从复制有哪些方式

MySQL 主从复制主要有以下几种方式，根据不同的分类标准（如同步机制、数据复制格式、拓扑结构等）可以分为： 一、按同步机制分类 1. 异步复制 (Asynchronous Replication) 原理：主库提交事务后，立即返回给客…...

编程日记 2025/8/26 19:37:10

Vue工程化开发脚手架Vue CLI

开发Vue有两种方式核心包传统开发模式：基于html / css / js 文件，直接引入核心包，开发 Vue。工程化开发模式：基于构建工具（例如：webpack）的环境中开发Vue。脚手架Vue CLI Vue CLl 是 Vue 官方…...

编程日记 2025/8/22 12:41:56

MySQL函数运算

1.日期时间函数查询当前日期时间的函数(使用函数需要加select)： curdate() 查看当前数据库的日期部分（年月日） SELECT CURDATE(); curtime() 查看当前数据库的时间部分（时分秒） SELECT CURTIME(); now() 查看当前…...

编程日记 2025/8/25 22:34:45

Spring如何解决项目中的循环依赖问题？

目录什么是循环依赖？ 如何解决？ 采用两级缓存解决需要AOP的Bean的循环依赖问题？ 三级缓存解决什么是循环依赖？ 循环依赖就是Spring在初始化Bean时两个不同的Bean你依赖我，我依赖你的情况例如A依赖B&#xf…...

编程日记 2025/8/26 19:37:10

【Pandas】pandas DataFrame itertuples

Pandas2.2 DataFrame Indexing, iteration 方法描述DataFrame.head([n])用于返回 DataFrame 的前几行DataFrame.at快速访问和修改 DataFrame 中单个值的方法DataFrame.iat快速访问和修改 DataFrame 中单个值的方法DataFrame.loc用于基于标签（行标签和列标签&#…...

编程日记 2025/8/24 6:59:28

正则表达式反向引用的综合应用魔法：从重复文本到简洁表达的蜕变

“我....我要....学学学学....编程 java!” —— 这类“重复唠叨”的文本是否让你在清洗数据时头疼不已？ 本文将带你一步步掌握正则表达式中的反向引用技术，并结合 Java 实现一个中文文本去重与清洗的实用工具。结合经典的结巴实例。如何高效地将这样的…...

编程日记 2025/8/25 21:24:15

ESP32驱动读取ADXL345三轴加速度传感器实时数据

ESP32读取ADXL345三轴加速度传感器实时数据 ADXL345三轴加速度传感器简介ADXL345模块原理图与引脚说明ESP32读取ADXL345程序实验结果 ADXL345三轴加速度传感器简介 ADXL345是一款由Analog Devices公司推出的三轴数字加速度计，分辨率高(13位)，测量范围达…...

编程日记 2025/8/26 17:14:35

C++高级3 绑定器

绑定器 C11从Boost库中引入了bind绑定器和function函数对象机制绑定器二元函数对象一元函数对象 bind1st 绑定第一个 bind2nd 绑定第二个 #include <iostream> #include <memory> #include <vector> #include <functional> #include <ctime…...

编程日记 2025/8/24 19:27:14

Android 接口定义语言 (AIDL)

目录 1. 本地进程调用（同一进程内）2. 远程进程调用（跨进程）3 `oneway` 关键字用于修改远程调用的行为Android 接口定义语言 (AIDL) 与其他 IDL 类似：你可以利用它定义客户端与服务均认可的编程接口，以便二者使用进程间通信 (IPC) 进行相互通信。在 Android 上，一个进…...

编程日记 2025/8/24 10:22:06

【android bluetooth 案例分析 02】【CarLink 详解2】【Carlink无配对连接机制深度解析】

Carlink无配对连接机制深度解析（首次/二次免鉴权原理） 一、核心结论：Carlink通过SDK层协议设计完全绕过传统蓝牙配对传统蓝牙配对（Pairing）依赖协议栈生成长期绑定密钥（LTK），而Car…...

编程日记 2025/8/26 10:52:28

ubuntu 2204 安装 vcs 2023

系统 : Ubuntu 22.04.1 LTS vcs 软件 : 有已经安装好的软件(位于redhat8.10),没找到安装包 . 安装好的目录文件占用 94 G注意 : 该虚拟机(包括安装好的软件)有114G,其中安装好的目录文件占用94GB // 即我要把这里已经安装好的软件(包括scl/vcs/verdi 和其他软件) 在 …...

编程日记 2025/8/25 9:43:35

Spring Boot循环依赖全解析：原理、解决方案与最佳实践

🚨 Spring Boot循环依赖全解析：原理、解决方案与最佳实践 #SpringBoot核心 #依赖注入 #设计模式 #性能优化一、循环依赖的本质与危害 1.1 什么是循环依赖？ 循环依赖指两个或多个Bean相互直接或间接引用，形成闭环依赖关系。典…...

编程日记 2025/8/24 13:03:07

按键精灵安卓/ios脚本辅助工具开发教程：如何把界面配置保存到服务器

在使用按键精灵工具辅助的时候，多配置的情况下，如果保存现有的配置，并且读取，尤其是游戏中多种任务并行情况下，更是需要界面进行保存，简单分享来自紫猫插件的配置保存服务器写法。界面例子： …...

编程日记 2025/8/26 11:58:26

【厦门大学】大模型概念、技术与应用实践

大模型概念、技术与应用实践引言一、人工智能发展简史1.1 图灵测试的提出1.2 人工智能的诞生1.3 人工智能的发展阶段二、大模型的核心概念2.1 大模型的定义2.2 大模型的特点三、大模型的发展历程3.1 萌芽期（1950-2005）3.2 沉淀期（2006-201…...

编程日记 2025/8/24 5:52:26

The Strict Teacher (Hard Version) 去除无效的干扰！巧妙转化

文章目录 The Strict Teacher (Hard Version) 思考问题！那么多个人抓一个人，是否是每一个人都是对于最优策略的答案是有贡献的？答案是否定的，其实问题可以简化为三种情况： 所有的老师都在大卫的右边，…...

编程日记 2025/8/26 19:37:11

Linux中信号的保存

一、认识信号的其他相关概念实际执行信号的处理动作称为信号递达信号从产生到递达之间的状态，称为信号未决进程可以选择阻塞某个信号被阻塞的信号产生时将保持在未决状态，直到进程解除对该信号的阻塞，才进行递达的动作阻塞和忽略是不同的…...

编程日记 2025/8/24 5:43:50

2024ICPC 南京 B 生日礼物

题目： 格莱美的生日快到了，她从朋友那里得到了一个序列 A 作为礼物。这个序列只有 0 、 1 和 2 。格莱美认为这个数列太长了，因此她决定修改 A 使其更短。从形式上看，格莱美可以执行任意数量的运算。每次她都可以从以下三种运算…...

编程日记 2025/8/22 22:40:52

扫地机器人进化史：从人工智障到家政王者

1996年，瑞典伊莱克斯推出的"三叶虫"开启了扫地机器人的纪元。这款售价2000美元的"初代机"工作时像喝醉的水手，随机碰撞的清扫方式让用户直呼"买了个寂寞"。谁能想到，这个当初被戏称为"人工智障"的发…...

编程日记 2025/8/25 20:59:22

C 语言 --- 数据类型的存储

C 语言 --- 数据类型的存储空类型大小端存储大端存储 --- 正着放（从小到大）小端存储 --- 倒着放（从大到小） 浮点型在内存中的存储总结 💻作者简介：曾与你一 …...

编程日记 2025/8/26 5:21:21

3.8 字符串的常用函数

重点：字符串的常用函数 #1.测试转换大小写 lower:大写->小写 upper：小写->大写 swapcase：自动将大写转小写小写转大写 print("ABC".lower()) #abcprint("abc".upper()) #ABCprint…...

编程日记 2025/8/26 3:18:51

事件触发控制与响应驱动控制的定义、种类及区别

一、定义事件触发控制（Event-Triggered Control, ETC） 事件触发控制是一种基于动态条件触发的控制策略，其核心在于通过预设的事件触发条件（如系统状态误差超过阈值、特定信号到达等）来决定何时更新控制信号或进行通信…...

编程日记 2025/8/26 19:37:10

Android离屏渲染

写在前面与iOS同事聊天时聊到圆角会使用离屏渲染的方式绘制，影响性能；Android上有没有不知道，学习了一下整理了这篇文章。 Android 圆角与离屏渲染（Offscreen Rendering） 一、什么是离屏渲染？ 离屏渲染…...

编程日记 2025/8/24 8:26:51

35. 搜索插入位置

给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。示例 1: 输入: nums [1,3,5,6], target 5 输出: 2示例 2: 输入:…...

编程日记 2025/8/26 15:49:18

网络的起点：深入解析计算机网络中的网络接口层

一、什么是网络接口层？ 计算机网络的网络接口层（Network Interface Layer），在 TCP/IP模型中处于最底层，负责将数据从计算机传输到物理网络媒介，并在此基础上确保数据的正确传输。它位于数据链路层和物理…...

编程日记 2025/8/26 4:42:40

智能指针（内存泄漏）

一、RALL RALL的核心概念： 资源获取即初始化：资源的分配与对象的初始化绑定在一起，资源的释放与对象的销毁绑定在一起。不是所有智能指针都用这个思想可以有效避免死锁问题二、智能指针通过将new出的对象教给有生命周期的对象处理。在…...

编程日记 2025/8/26 19:10:34

秒杀秒抢系统开发：飞算 JavaAI 工具如何应对高并发难题？

秒杀、秒抢活动已成为电商促销与吸引流量的常用手段。然而，此类活动所带来的高并发访问，对系统性能构成了巨大挑战。如何确保系统在高并发场景下依然能够稳定、高效运行，成为开发者亟待解决的关键问题。飞算 JavaAI 工具作为一款功能强大的开…...

编程日记 2025/8/25 1:02:01

AI在代码Review中的应用试验与推广策略

一、引言在软件开发领域，代码审查（Code Review）是保障代码质量的关键环节。传统的代码审查依赖人工，不仅效率低下，而且容易出现疏漏。随着人工智能技术的发展，AI在代码审查中的应用逐渐成为可能。近期&am…...

编程日记 2025/8/26 8:11:30

自定义Jackson序列化和反序列化

为什么需要自定义Jackson序列化和反序列化?下面举个例子看看就知道了问题描述由于 Spring Boot 内置使用的就是 Jackson JSON 框架，所以，无需引入新的依赖，仅需添加自定义配置类即可，让其支持新的日期 API Controller层的代码…...

编程日记 2025/8/25 15:55:52

人工智能浪潮与生成式人工智能认证（GAI认证）的登场

当ChatGPT在2023年引爆全球对话时，人类已悄然站在人工智能发展史上的关键转折点。生成式人工智能（Generative AI）不再仅仅是实验室中的技术概念，而是正在重塑内容创作、商业决策、教育医疗等领域的底层逻辑。这场技术浪潮的冲击力，不仅体现在算法模型的指数级进化上，更在…...

编程日记 2025/8/26 17:41:41

Redis - 讲清楚集群模式（Redis Cluster）（上）

节点与集群构建节点组成：Redis集群由多个独立节点组成，通过CLUSTER MEET命令实现节点握手，形成集群。握手过程： 节点A为节点B创建clusterNode结构，发送MEET消息。节点B接收后创建节点A的clusterNode结构&#xff…...

编程日记 2025/8/25 19:40:43

什么是矩阵号？为什么要做海外矩阵？

简单说，就是——在海外平台批量搞账号/店铺，组团赚钱！ 比如这样玩👇 ● TikTok 矩阵号：5 个账号，分别做美妆、3C、家居，覆盖不同老外兴趣圈。 ● 亚马逊矩阵店铺：A 店卖手机壳&#…...

编程日记 2025/8/25 16:00:26

10 穴汽车连接器的15个设计特点

汽车行业严重依赖卓越的电气系统来确保功能和可靠性。这些系统的关键组件是 10 腔连接器，它为布线和信号传输提供解决方案。制造商和工程师必须仔细评估这些连接器的设计特性，以优化性能和安全性。本博客研究了汽车 10 腔连接器的 15 个设计特征&#…...

编程日记 2025/8/22 18:54:47

WHAT - 动态导入模块遇到版本更新解决方案

文章目录一、动态导入模块二、常见原因与解决方案1. 模块 URL 错误2. 开发人员发版用户停留在旧页面问题背景解决方案思路1. 监听错误，提示用户刷新2. 使用缓存控制策略：强制刷新3. 动态模块加载失败时兜底4. 使用 import.meta.glob() 或 webpack 的 __…...

编程日记 2025/8/26 10:08:23

4.15学习总结

学习了IO流和相关的字符集完成一道算法题...

编程日记 2025/8/22 11:32:50

THCON 2025

Crypto OTPas_ouf 用10个字符异或加密的jpg图片，通过头得到key再恢复原图 Mammoths Personnal Slot Machine 梅森旋转恢复 from pwn import * from randcrack import RandCrack from tqdm import trange context.log_level errorp remote(74.234.198.209, 33…...

编程日记 2025/8/24 23:50:56

Linux 深入浅出信号量：从线程到进程的同步与互斥实战指南

知识点1【信号量概述】信号量是广泛用于进程和线程间的同步和互斥。信号量的本质是一个非负的整数计数器，它被用来控制对公共资源的访问当信号量值大于0的时候，可以访问，否则将阻塞。 PV原语对信号量的操作，一次P操作使信号…...

编程日记 2025/8/25 18:58:22

torchrun

一、什么是 torchrun

二、torchrun 的核心参数讲解

三、torchrun 会自动设置的环境变量

四、torchrun 启动过程举例

机器 A（node_rank=0）上运行

机器 B（node_rank=1）上运行

五、小结表格

PyTorch

一、背景回顾

二、init_process_group

三、脚本中通常的典型写法

通用启动脚本

相关文章：

`torchrun`

一、什么是 `torchrun`

二、`torchrun` 的核心参数讲解

二、`init_process_group`