当前位置：首页 > news >正文

大语言模型RLHF训练框架全景解析：OpenRLHF、verl、LLaMA-Factory与SWIFT深度对比

news 来源：原创 2025/7/13 1:51:40

引言

随着大语言模型（LLM）参数规模突破千亿级，基于人类反馈的强化学习（RLHF）成为提升模型对齐能力的关键技术。OpenRLHF、verl、LLaMA-Factory和SWIFT作为开源社区的四大标杆框架，分别通过分布式架构、混合控制器、模块化设计和国产化适配，为70B级模型训练提供创新解决方案。本文将深度解析其技术差异与实践价值，并提供选型建议。

技术架构对比

OpenRLHF：分布式架构的工程化典范

核心技术：

三级调度体系：基于Ray实现Actor、Reward、Reference、Critic模型的GPU资源解耦，Hybrid Engine提升GPU利用率至85%
vLLM+AutoTP加速：样本生成吞吐量提升2.3倍，Llama3-8B单卡生成速度达120 tokens/s
ZeRO-3显存优化：70B模型显存占用降低40%，单节点支持32B模型微调

算法矩阵：

REINFORCE++系列：DeepSeek-R1-Zero基准测试显示较传统PPO提速2.3倍
多模态扩展：LMM-R1分支验证ViT-32与LLM联合训练可行性
全流程工具链：集成KTO、PRM等10+算法，支持QLoRA 4bit量化

工程实践：

CMU实测：A100集群训练Llama3-70B耗时53小时，成本较DSChat降低38%
Docker一键部署：集群启动时间缩短至15分钟内

# OpenRLHF典型训练命令
ray job submit ... -- python3 -m openrlhf.cli.train_ppo_ray \--actor_num_gpus_per_node 8 \--vllm_num_engines 4 \--colocate_all_models \--packing_samples

verl：HybridFlow架构的工业级突破

技术特征：

混合控制器编程模型：声明式API实现GRPO、DAPO算法模块化组装
3D-HybridEngine：训练/推理阶段通信开销降低40%
FSDP2深度优化：70B模型梯度同步延迟降至1.2ms

性能标杆：

AIME 2024测试：Qwen-32B基座DAPO算法得50分，超越DeepSeek-R1-Zero 3.2个百分点
ROCm内核优化：AMD Instinct MI300集群效率提升28%

生态应用：

Seed-Thinking-v1.5：Codeforces得分达DeepSeek-R1-Zero的1.8倍
Skywork-OR1：开源多模态框架实现GUI代理端到端训练
VAPO算法：Qwen-32B训练收敛速度提升1.5倍

# verl奖励函数定义示例
def reward_func(queries, responses):return calculate_math_accuracy(responses)

LLaMA-Factory：模块化设计的全栈解决方案

核心优势：

算法覆盖：支持PPO、奖励模型等RLHF全流程，提供LoRA/QLoRA微调
多模态支持：兼容LLaVA、MiniCPM等视觉模型
中文生态友好：中文文档完善，活跃社区支持60+企业应用

工程实现：

显存优化：QLoRA使70B模型训练门槛降至24GB显存（4bit量化）
加速技术：集成FlashAttention-2和Unsloth，训练吞吐提升3倍
用户接口：CLI命令行与Gradio Web UI双模式支持零代码微调

实践建议：

数据准备：支持HuggingFace/ModelScope预定义数据集及自定义JSON格式
训练流程：SFT→奖励模型→PPO三阶段范式
资源需求：QLoRA PPO训练70B模型需24GB×4卡集群

# LLaMA-Factory PPO训练示例
llamafactory-cli train examples/train_ppo.yaml

SWIFT：国产化适配的轻量级框架

核心定位：

多模态全栈支持：覆盖500+文本模型和200+多模态模型
算法丰富性：集成DPO、GRPO等10+ RLHF算法
国产化适配：深度兼容华为昇腾NPU、阿里云百炼平台

工程实现：

显存优化：AWQ/GPTQ量化使70B模型4bit训练仅需48GB显存
加速引擎：vLLM支持72B模型4卡A100/H100训练
全流程工具：提供Web-UI、OpenAI API接口及EvalScope评估体系

典型场景：

多模态Agent训练：GRPO算法支持工具调用类Agent开发
国产化部署：适配华为云、阿里云百炼平台一键导出模型

# SWIFT DPO训练示例
swift rlhf \--rlhf_type dpo \--model Qwen/Qwen2.5-7B \--train_type lora \--lora_rank 8

四维对比分析

维度	OpenRLHF	verl	LLaMA-Factory	SWIFT
分布式架构	Ray + Hybrid Engine	FSDP2 + 3D-HybridEngine	DeepSpeed/FSDP	ZeRO3 + Tensor并行
显存优化	ZeRO-3 + AutoTP	CPU卸载 + 序列打包	QLoRA/LoRA	AWQ/GPTQ量化 + UnSloth加速
算法覆盖	PPO/REINFORCE++/GRPO等10+	DAPO/VAPO/PRIME等15+	PPO/DPO等15+	DPO/GRPO/PPO等10+
多模态支持	LMM-R1分支	Skywork-OR1集成	✅（LLaVA/MiniCPM）	✅（图像/视频/OCR）
国产化适配	实验性支持	ROCm内核优化	有限支持	深度支持昇腾NPU
社区生态	60+企业应用，中文文档完善	字节系深度整合	中文文档完善，活跃度高	中英双语文档+视频教程

技术演进与选型建议

技术融合趋势

算法融合：OpenRLHF计划集成DAPO，verl开发PPO-GRPO混合算法
硬件适配：多框架推进NPU/GPU异构计算支持
智能体扩展：verl布局多智能体交互，OpenRLHF开发Tool-RL模块

选型决策树

学术研究：OpenRLHF（算法覆盖广，文档完备）
工业部署：verl（FSDP2优化成熟，AMD生态完善）
多模态场景：SWIFT（视觉模型支持最全）
国产化需求：SWIFT（昇腾NPU深度适配）

挑战与未来展望

当前挑战

资源消耗：70B模型全量PPO训练仍需8×H100（80G×8）
收敛稳定性：GRPO需合理配置KL散度参数（建议--init_kl_coef=0.2）
文档深度：LLaMA-Factory需完善多卡训练示例

技术演进

万亿参数支持：预计2025年出现万亿参数RLHF框架
AGI安全对齐：通过过程奖励模型（PRM）提升推理可解释性
异构计算：NPU/GPU协同训练降低国产化部署成本

结论

四大框架各具特色：

OpenRLHF：分布式架构标杆，适合大规模SOTA研究
verl：工业级DAPO/VAPO算法，字节系深度优化
LLaMA-Factory：模块化设计，低代码操作友好
SWIFT：国产化适配先锋，多模态全栈支持

随着RL4LM技术的持续突破，未来将出现更多跨框架融合方案，推动AGI安全对齐研究进入新阶段。开发者应根据硬件条件、算法需求和部署场景进行动态选择，同时关注TRL、TRLX等新兴库的技术演进。

大语言模型RLHF训练框架全景解析：OpenRLHF、verl、LLaMA-Factory与SWIFT深度对比

引言随着大语言模型（LLM）参数规模突破千亿级，基于人类反馈的强化学习（RLHF）成为提升模型对齐能力的关键技术。OpenRLHF、verl、LLaMA-Factory和SWIFT作为开源社区的四大标杆框架，分别通过分布式架构、混合…...

编程日记 2025/7/13 1:51:40

VTK|类似CloudCompare的比例尺实现1-源码分析

文章目录 CloudCompare源码分析void ccGLWindowInterface::drawScale(const ccColor::Rgbub& color)🧩 总体功能🧠 函数逐步解析✅ 1. 断言只在正交模式下使用✅ 2. 计算显示的实际长度✅ 3. 字体和图形区域准备✅ 4. 计算比例尺图形的绘制位置✅ 5.…...

编程日记 2025/6/29 0:50:50

【计算机视觉】OpenCV实战项目：基于Tesseract与OpenCV的字符识别系统深度解析

基于Tesseract与OpenCV的字符识别系统深度解析 1. 项目概述2. 技术原理与算法设计2.1 图像预处理流水线1) 形态学操作2) 自适应阈值 2.2 Tesseract OCR引擎 3. 实战部署指南3.1 环境配置3.2 项目结构优化建议3.3 增强版代码实现 4. 常见问题与解决方案4.1 Tesseract路径错误4.2…...

编程日记 2025/6/29 0:22:24

CVE-2025-31258 macOS远程视图服务沙箱逃逸漏洞PoC已公开

苹果公司近日针对macOS系统中新披露的CVE-2025-31258漏洞发布补丁，该漏洞可能允许恶意应用程序突破沙箱限制，获取未授权的系统资源访问权限。在安全研究员Seo Hyun-gyu公开概念验证（PoC）利用代码后，该漏洞已在macOS Se…...

编程日记 2025/6/28 23:04:54

使用CAS操作实现乐观锁的完整指南

乐观锁是一种高效的并发控制机制，而CAS(Compare-And-Swap)是实现乐观锁的核心技术。下面我将详细介绍如何通过CAS操作实现乐观锁。一、CAS操作原理 CAS(Compare-And-Swap)是一种原子操作，包含三个操作数： 内存位置(V)预期原值(A)新值(B) …...

编程日记 2025/6/29 1:16:12

java之网络编程

文章目录网络编程概述什么是网络编程基本的通信架构CS架构BS架构 Java提供了哪些网络编程解决方案？ 网络编程三要素IPIP地址IP域名（Domain Name）DNS域名解析（Domain Name System）公网IP、内网IP本机IPInetAddress类In…...

编程日记 2025/6/28 23:05:01

苍穹外卖--新增菜品

1.需求分析和设计产品原型业务规则： 菜品名称必须是唯一的菜品必须属于某个分类下，不能单独存在新增菜品时可以根据情况选择菜品的口味每个菜品必须对应一张图片接口设计： 根据类型查询分类(已完成) 文件上传新增菜品根据类型…...

编程日记 2025/6/28 23:05:04

Spark处理过程-转换算子

（一）RDD的处理过程 Spark使用Scala语言实现了RDD的API,程序开发者可以通过调用API对RDD进行操作处理。RDD的处理过程如图所示； RDD经过一系列的“转换”操作，每一次转换都会产生不同的RDD，以供给下一次“转换”操作使…...

编程日记 2025/7/13 1:48:03

运行Spark程序-在Spark-shell——RDD

一、基本概念 RDD（弹性分布式数据集）是 Apache Spark 的核心抽象，是 Spark 提供的最基本的数据处理单元。理解 RDD 的概念对于掌握 Spark 编程至关重要。以下是 RDD 的核心概念和特性： 1. 什么是 RDD？ 定义&#xf…...

编程日记 2025/7/13 1:48:03

Qt应用程序启动时的一些思路：从单实例到性能优化的处理方案

程序启动时优化的价值在桌面软件开发领域，应用程序的启动过程就像音乐的序曲，决定了用户对软件品质的第一印象。比如首次启动等待超过3秒时，会让大多数用户产生负面看法，而专业工具软件的容忍阈值甚至更低。Qt框架作为跨平台开发…...

编程日记 2025/6/29 0:39:43

vue3父子组件传值

父 → 子：props 父组件 <template><ChildComponent :message"parentMessage" :user"user" /> </template><script setup> import ChildComponent from ./ChildComponent.vue; const parentMessage Hello from paren…...

编程日记 2025/6/28 23:17:03

中国品牌日 | 以科技创新为引领，激光院“风采”品牌建设结硕果

品牌，作为企业不可或缺的隐形财富，在当今竞争激烈的市场环境中，其构建与强化已成为推动企业持续繁荣的关键基石。为了更好地保护自主研发产品，激光院激光公司于2020年3月7日正式注册“风采”商标，创建拥有自主知识产权…...

编程日记 2025/6/28 23:19:47

合合信息上线智能文档处理领域首批MCP服务，助力企业快速搭建Agent

随着大模型及Agent技术的飞速发展，通过大模型调用外部工具正在成为AI应用开发的新范式。然而，由于不同大模型的调用结构和参数格式各异，开发者需要分别编写工具调用逻辑，AI工具集成效率低下，MCP（Model Cont…...

编程日记 2025/6/29 1:06:21

佰力博科技与您探讨表面电阻的测试方法及应用领域

表面电阻测试是一种用于测量材料表面电阻值的技术，广泛应用于评估材料的导电性能、静电防护性能以及绝缘性能。 1、表面电阻的测试测试方法： 表面电阻测试通常采用平行电极法、同心圆电极法和四探针法等方法进行。其中，平行电极法通过在试样…...

编程日记 2025/6/29 0:39:31

【DeepSeek】判断两个 PCIe 设备是否属于**同一个 PCIe 子树

在 Linux 系统中，判断两个 PCIe 设备是否属于**同一个 PCIe 子树（Subtree）**是 P2P 通信的关键前提。以下是具体方法和步骤： 一、基本原理两个 PCIe 设备属于同一子树的条件： 共享同一 Root Port：它们的…...

编程日记 2025/6/28 23:42:04

一份完整的高级前端性能优化手册

以下是一份完整的高级前端性能优化手册，涵盖核心原理、关键指标、优化策略及工具链，适合中大型项目深度优化：高级前端性能优化手册 🚀 以用户体验为核心的极致性能实践一、性能指标体系与度量 1. 核心性能指标 (Core Web Vitals) LCP (Largest Contentful Paint)：最大…...

编程日记 2025/6/29 0:06:45

Leetcode 3543. Maximum Weighted K-Edge Path

Leetcode 3543. Maximum Weighted K-Edge Path 1. 解题思路2. 代码实现题目链接：3543. Maximum Weighted K-Edge Path 1. 解题思路这一题思路上就是一个遍历的思路，我们只需要考察每一个节点作为起点时，所有长为 k k k的线段的长度&…...

编程日记 2025/6/28 23:04:53

agentmain对业务的影响

前面一篇已经说了java agent技术主要有premain和agentmain两种形式，如果大部分业务已经在线上运行的话，不方便用premain的方式来实现，所以agentmain的方式是更加通用、灵活的由于RASP是与用户业务运行在同一个jvm中的 ，所以RASP…...

编程日记 2025/6/28 23:05:02

【前端】【JavaScript】【总复习】四万字详解JavaScript知识体系

JavaScript 前端知识体系 📌 说明：本大纲从基础到高级、从语法到应用、从面试到实战，分层级讲解 JavaScript 的核心内容。一、JavaScript 基础语法 1.1 基本概念 1.1.1 JavaScript 的发展史与用途 1. 发展简史 1995 年：JavaS…...

编程日记 2025/6/29 1:02:19

开源模型应用落地-qwen模型小试-Qwen3-8B-融合VLLM、MCP与Agent（七）

一、前言随着Qwen3的开源与技术升级，其在企业中的落地场景正加速拓展至多个垂直领域。依托Agent智能体能力和MCP协议的工具调用接口，Qwen3可深度融入企业业务流程，为企业提供从需求解析到自动化开发的全链路支持。本篇将介绍如何实现Qwen3-8B模型集成MCP实现智能体交互。…...

编程日记 2025/6/29 0:22:22

【Linux学习笔记】理解一切皆文件实现原理和文件缓冲区

【Linux学习笔记】理解一切皆文件实现原理和文件缓冲区 🔥个人主页：大白的编程日记 🔥专栏：Linux学习笔记前言哈喽，各位小伙伴大家好!上期我们讲了重定向今天我们讲的是理解一切皆文件实现原理和文件缓冲区。话不…...

编程日记 2025/6/29 0:22:45

MCP-RAG 服务器：完整设置和使用指南

在快速发展的人工智能应用时代，结合静态领域知识和实时网络信息的系统需求比以往任何时候都更加迫切。传统的检索增强生成（RAG）模型通常依赖于预先索引的数据，这限制了它们对新发展的反应能力。MCP-RAG Server通过将基于语义的向量…...

编程日记 2025/6/28 23:04:57

裸金属服务器 VS 传统物理机

一：首先，我们先介绍一下，什么是裸金属服务器？ 1.虚拟机的外表-平台可视化可以通过后台管理界面查看当前所使用的全部信息包括：当前系统版本、CPU、内存、硬盘等相关信息。 2.虚拟机的外表-操作自动化同样也可以在…...

编程日记 2025/6/28 23:04:58

React百日学习计划-Grok3

关键点研究表明，100天内学习React是可行的，尤其是你已有HTML、JS和CSS基础。该计划包括基础知识、hooks、状态管理、路由、样式化及综合项目，适合初学者。建议每天花2-3小时学习，结合免费教程和社区支持。开始学习学习React…...

编程日记 2025/6/28 23:04:55

Android NDK 高版本交叉编译：为何无需配置 FLAGS 和 INCLUDES

引言：NDK 交叉编译的演进 Android NDK（Native Development Kit）是开发高性能C/C代码的核心工具链，而交叉编译（在x86主机上生成ARM架构代码）一直是NDK的核心功能。过去，开发者需要手动配置大量编…...

编程日记 2025/6/29 0:23:48

Java详解LeetCode 热题 100(15):LeetCode 189. 轮转数组（Rotate Array）详解

文章目录 1. 题目描述2. 理解题目3. 解法一：使用额外数组3.1 思路3.2 Java代码实现3.3 代码详解3.4 复杂度分析3.5 适用场景 4. 解法二：环状替换法（原地算法）4.1 思路4.2 Java代码实现4.3 代码详解4.4 复杂度分析4.5 陷阱与注意事…...

编程日记 2025/6/28 23:13:49

出于PCB设计层面考虑，连排半孔需要注意哪些事项？

通过拼接作为后处理运行，用拼接联排半孔填充铜的自由区域。为了使通缝成为可能，必须在不同的层上有重叠的铜区域连接到指定的网上。铜的支持区域包括填充、多边形和动力平面。高电流对电路板的潜在负面影响的另一个例子是电路板结构的物理失效。制造原始…...

编程日记 2025/6/29 1:11:54

JIT+Opcache如何配置才能达到性能最优

首先打开php.ini文件，进行配置 1、OPcache配置 ; 启用OPcache opcache.enable1; CLI环境下启用OPcache（按需配置） opcache.enable_cli0; 预加载脚本（PHP 7.4，加速常用类） ; opcache.preload/path/to/prel…...

编程日记 2025/6/29 0:33:00

VR和眼动控制集群机器人的方法

西安建筑科技大学信息与控制工程学院雷小康老师团队联合西北工业大学航海学院彭星光老师团队，基于虚拟现实（VR）和眼动追踪技术实现了人-集群机器人高效、灵活的交互控制。相关研究论文“基于虚拟现实和眼动的人-集群机器人交互方法” 发表于信…...

编程日记 2025/6/29 0:37:37

LabVIEW与PLC通讯程序S7.Net.dll

下图中展示的是 LabVIEW 环境下通过调用S7.Net.dll 组件与西门子 PLC 进行通讯的程序。LabVIEW 作为一种图形化编程语言，结合S7.Net.dll 的.NET 组件优势，在工业自动化领域中可高效实现与 PLC 的数据交互，快速构建工业监控与控制应用。相较于…...

编程日记 2025/6/28 23:28:09

【华为】现场配置OSPF

原创：厦门微思网络实验目的 1、了解OSPF的运行原理 2、掌握OSPF的配置方法实验拓扑实验需求 1、根据实验拓扑图，完成设备的基本配置； 2、分别在R1、R2、R3上创建Loopback0接口，IP地址分别是1.1.1.1/32、2.2.2.2/32、3.3.3.…...

编程日记 2025/6/28 23:04:59

STM32-DMA数据转运（8）

目录一、简介二、存储器映像三、DMA框图编辑四、DMA基本结构五、两个数据转运的实例一、简介直接存储器存取简称DMA（Direct Memory Access），它是一个数据转运小助手，主要用来协助CPU，完成数据转运的工作…...

编程日记 2025/6/28 23:10:15

课题推荐——低成本地磁导航入门，附公式推导和MATLAB例程运行演示

地磁导航利用地球磁场的自然特性，通过感知磁场变化，帮助机器人或无人设备实现定位和导航。相比于 GPS、激光雷达等导航方法，地磁导航具有以下优势： 低成本：使用地磁传感器（如电子罗盘）&#xff…...

编程日记 2025/6/28 23:05:00

微信小程序学习之底部导航栏

首先，我们在app.json中添加4个页面， "pages": ["pages/index/index","pages/category/category","pages/cart/cart","pages/user/user"], 其次我们把8张图片放到imaes文件夹下， 图标可…...

编程日记 2025/6/28 23:55:09

c++ std库中的文件操作学习笔记

1. 概述 C标准库提供了头文件中的几个类来进行文件操作，这些类封装了底层的文件操作，提供了面向对象和类型安全的接口，使得文件读写更加便捷和高效。主要的文件流类包括： std::ifstream：用于从文件中读取数据。 st…...

编程日记 2025/6/29 0:36:38

多臂赌博机：探索与利用的平衡艺术

1. 引言在机器学习领域，多臂赌博机（Multi-Armed Bandit，MAB）问题是强化学习的一个经典且基础的模型。这个名称源于赌场中的"单臂老虎机"（One-armed Bandit），因为这种赌博机器像强盗…...

编程日记 2025/6/29 1:08:20

分布式异步强化学习框架训练32B大模型：INTELLECT-2

INTELLECT-2 模型详解一、模型概述 INTELLECT-2 是一个拥有 320 亿参数的语言模型，其训练采用了一种创新的方式，即通过社区贡献的分布式、无需许可的 GPU 资源进行强化学习训练。该模型基于 qwen2 架构构建，因此与 vllm 或 sglang 等流行库…...

编程日记 2025/6/28 23:50:48

HTML应用指南：利用POST请求获取全国京东快递服务网点位置信息

京东快递作为中国领先的智能供应链与综合物流服务提供商，自2007年成立以来，始终致力于通过技术创新与高效运营，为客户提供安全、可靠、快速的物流解决方案。京东快递依托京东集团的强大资源支持，凭借其自营仓储、干线运输、末端配送一体化的物流网络，在激烈的市场竞争中脱…...

编程日记 2025/6/28 23:53:35

通过POI实现对word基于书签的内容替换、删除、插入

一、基本概念 POI：即Apache POI， 它是一个开源的 Java 库，主要用于读取 Microsoft Office 文档（Word、Excel、PowerPoint 等），修改或生成 Office 文档内容，保存为对应的二进制或 XML 格式&a…...

编程日记 2025/6/29 0:12:57

git进行版本控制时遇到Push cannot contain secrets的解决方法

git进行版本控制，push遇到Push cannot contain secrets的解决方法最近在项目开发过程中，我遇到了一个让我头疼不已的问题。问题的出现一开始，我的项目远程仓库连接的是 Gitee，在开发过程中一切都很顺利，我也习惯…...

编程日记 2025/6/29 1:07:07

Java GUI 开发之旅：Swing 组件与布局管理的实战探索

在编程的世界里，图形用户界面（GUI）设计一直是提升用户体验的关键环节。Java 的 Swing 库为我们提供了强大的工具来构建跨平台的 GUI 应用。今天，我将通过一次实验，分享如何使用 Java Swing 开发一个功能丰富的 GUI 应用…...

编程日记 2025/6/29 1:27:27

OpenVLA (2) 机器人环境和环境数据

文章目录前言1 BridgeData V21.1 概述1.2 硬件环境 2 数据集2.1 场景与结构2.2 数据结构2.2.1 images02.2.2 obs_dict.pkl2.2.3 policy_out.pkl 前言按照笔者之前的行业经验, 数据集的整理是非常重要的, 因此笔者这里增加原文中出现的几个数据集和环境的学习 1 BridgeData V…...

编程日记 2025/6/28 23:40:17

【Ansible】基于windows主机，采用NTLM+HTTPS 认证部署

我们现在准备Linux centos7（Ansible控制机）和Windows（客户机）环境下的详细部署步骤： 一、Windows客户机配置 1. 准备SSL证书 1.1 生成自签名证书（测试用） 以管理员身份打开PowerShell&#…...

编程日记 2025/6/28 23:42:52

React19源码系列之 API（react-dom）

API之 preconnect preconnect – React 中文文档 preconnect 函数向浏览器提供一个提示，告诉它应该打开到给定服务器的连接。如果浏览器选择这样做，则可以加快从该服务器加载资源的速度。 preconnect(href) 一、使用例子 import { preconnect } fro…...

编程日记 2025/6/29 1:01:23

鸿蒙Next开发获取APP缓存大小和清除缓存

1. 鸿蒙Next开发获取APP缓存大小和清除缓存 1.1. 介绍 1.1.1. 文件系统分类在最新的Core File Kit套件中，按文件所有者的不同。分为如下三类： （1）应用文件：文件所有者为应用，包括应用安装文件、应用…...

编程日记 2025/6/29 0:52:59

PNG转ico图标（支持圆角矩形/方形+透明背景）Python脚本 - 随笔

摘要在网站开发或应用程序设计中，常需将高品质PNG图像转换为ICO格式图标。本文提供一份基于Pillow库实现的，能够完美保留透明背景且支持导出圆角矩形/方形图标的格式转换脚本。源码示例圆角方形 from PIL import Image, ImageDraw, ImageOpsdef c…...

编程日记 2025/6/28 23:27:40

『大模型笔记』Langchain作者Harrison Chase专访：环境智能体与全新智能体收件箱

Langchain作者Harrison Chase专访：环境智能体与全新智能体收件箱文章目录摘要访谈内容什么环境智能体为什么要探索环境智能体怎么让人类能更方便地和环境智能体互动参考文献摘要 LangChain 的 CEO Harrison Chase 提出了_“环境智能体”（Ambient Agents）的概念，这是一种…...

编程日记 2025/6/29 0:58:39

GPT（ Generative Pre-trained Transformer ）模型：基于Transformer

GPT是由openAI开发的一款基于Transformer架构的预训练语言模型，拥有强大的生成能力和多任务处理能力，推动了自然语言处理（NLP）的快速发展。一 GPT发展历程 1.1 GPT-1（2018年） 是首个基于Transformer架构…...

编程日记 2025/6/29 0:34:48

游戏引擎学习第275天:将旋转和剪切传递给渲染器

回顾并为今天的内容定下基调我们认为在实现通用动画系统之前，先学习如何手写动画逻辑是非常有价值的。虽然加载和播放预设动画是合理的做法，尤其是在团队中有美术人员使用工具制作动画的情况下更是如此，但手动编写动画代码能让我们更深入理…...

编程日记 2025/6/30 6:37:51

conda 输出指定python环境的库输出为 yaml文件

conda 输出指定python环境的库输出为 yaml文件。有时为了项目部署，需要匹配之前的python环境，需要输出对应的python依赖库。假设你的目标环境名为 myenv，运行以下命令： conda env export -n myenv > myenv_environment.ym…...

编程日记 2025/6/28 23:10:45

引言