当前位置: 首页 > news >正文

大模型RLHF训练-PPO算法详解:Proximal Policy Optimization Algorithms

一、TL;DR

  1. 提出了一种新的策略梯度方法家族,用于强化学习,这些方法交替进行与环境交互采样数据
  2. 提出了一个新的目标函数,使得能够进行多个小批量更新的多轮训练
  3. 这些新方法为近端策略优化(Proximal Policy Optimization,PPO),它们具有一些信任域策略优化的优点
  4. 证明PPO优于其他在线策略梯度方法,并且总体上在样本复杂度、简单性和运行时间之间取得了有利的平衡。
  5. 推荐大家别看了,直接调库完事(总体来说PPO是什么呢?就是一个经过多轮迭代以后,拿到的奖励分数是最高且复杂度和稳定性最好的优化方法,这个优化方法是怎么得到的呢?通过修改损失函数、加入一些截断等策略得到的)

二、问题和出发点

现有的方法和问题点:

  1. Deep Q-learning:在许多简单问题上失败
  2. Vanilla Policy Gradient Methods:数据效率和鲁棒性较差
  3. Trust Region / Natural Policy Gradient Methods:相对复杂,且不兼容包含噪声(如Dropout)或参数共享的架构

出发点:

  1. 开发一种可扩展(适用于大型模型和并行实现)、数据高效且鲁棒(即无需超参数调整即可在多种问题上成功)的方法

方法:

  1. 引入一种算法来改善当前的状况,该算法在仅使用一阶优化的情况下,达到了TRPO的数据效率和可靠的性能
  2. 提出了一个带有截断概率比率的新目标函数,该函数形成了对策略性能的下界
  3. 交替进行从策略中采样数据和对采样数据进行多轮优化,发现带有截断概率比率的版本表现最佳
  4. 在连续控制任务中,优于前面的算法算法。在Atari游戏中,它的样本复杂度显著优于A2C,与ACER相当,但PPO要简单得多。

三、背景 Policy Optimization

这一节别看了,真的晦涩难懂

3.1 策略梯度优化方法

策略梯度方法通过计算策略梯度的估计值,并将其代入随机梯度上升算法来工作。最常用的梯度估计器具有以下形式:

其中,πθ​ 是一个随机策略,A^t​ 是时间步 t 处优势函数的估计值。这里的期望 E^t​[...] 表示在一个交替进行采样和优化的算法中,对有限批次样本的经验平均值。通过构造一个目标函数使用自动微分软进行求微分,其梯度为策略梯度估计器;估计值 g^​是通过对下式进行求导得到的:

虽然在同一个轨迹上对这个损失 LPG​ 进行多次优化步骤看起来很有吸引力,但实际上这样做缺乏充分的理论依据,并且经验上通常会导致策略更新幅度过大(参见第6.1节;结果未展示,但与“无截断或惩罚”设置相似或更差)。

3.2 信任域方法-TRPO

在信任域策略优化(TRPO) 中,最大化一个目标函数,同时受到策略更新幅度的约束。具体来说:

(3)式满足(4)式,θold​ 是更新前的策略参数向量。通过使用共轭梯度算法,并对目标函数进行线性近似,对约束条件进行二次近似,可以高效地近似求解该问题。

实际上,支持 TRPO 的理论建议使用惩罚项而不是约束条件,即求解无约束优化问题:

其中 β 是某个系数。这是因为某个替代目标(它计算的是状态上的最大 KL 散度而不是均值)形成了策略 π 性能的下界(即悲观估计)。TRPO 使用硬约束而不是惩罚项,是因为很难选择一个单一的 β 值,使其在不同问题上(甚至在同一个问题中,随着学习过程的进展,问题的特性也会发生变化)都能表现良好。因此,为了实现我们的目标——开发一种能够模拟 TRPO 单调改进的一阶算法,实验表明,仅仅选择一个固定的惩罚系数 β 并使用 SGD 优化惩罚目标(公式 (5))是不够的;还需要进行其他修改。

3.3 截断的替代目标函数-Clipped Surrogate Objective

设 rt​(θ) 表示概率比率 rt​(θ)=πθold​​(at​∣st​)πθ​(at​∣st​)​,因此 r(θold​)=1。TRPO 最大化了一个“替代”目标函数:

3.4 自适应KL惩罚系数-Adaptive KL Penalty Coefficient

截断替代目标的替代方案,或者与之结合使用,即对 KL 散度施加惩罚,并自适应调整惩罚系数,以便在每次策略更新时达到某个目标值的 KL 散度 ​。虽然在实验里面发现 KL 惩罚的性能不如截断替代目标,然而,我们还是将其包含在这里,因为这是一个重要的基准

在该算法的最简单实现中,我们在每次策略更新时执行以下步骤:

  • 使用多个小批量 SGD(随机梯度下降)周期,优化带有 KL 惩罚的目标函数:

四、PPO算法

之前提到的替代损失函数可以通过对典型的策略梯度实现进行微小的修改来计算和求导。对于使用自动微分的实现,只需构建损失函数 L-CLIP​ 或 L-KLPEN​ 代替 L-PG​,并对该目标执行多次随机梯度上升步骤。

大多数用于计算方差降低的优势函数估计器的技术都使用了学习到的状态价值函数 V(s),PPO使用一个结合了策略替代目标和价值函数误差项的损失函数。这个目标可以通过添加熵奖励来进一步增强,以确保足够的探索

将这些项结合起来,我们得到了以下目标函数,它在每次迭代中被(近似)最大化:

其中,c1​ 和 c2​ 是系数,S 表示熵奖励,LVF,t​ 是平方误差损失 (Vθ​(st​)−Vtarg,t​)2。

一种流行的策略梯度实现方式,由 [Mni+16] 推广并适用于循环神经网络,运行策略 T 个时间步(其中 T 远小于剧集长度),并使用收集到的样本进行更新。这种风格需要一个不超出时间步 T 的优势估计器。[Mni+16] 使用的估计器是:

其中 t 指定在给定长度为 T 的轨迹片段内的时间索引 [0,T]。推广这种选择,我们可以使用广义优势估计的截断版本,当 λ=1 时,它简化为公式 (10):

使用固定长度轨迹片段的近端策略优化(PPO)算法如下所示。在每次迭代中,每个 N(并行)执行器收集 T 个时间步的数据。然后我们在这些 NT 个时间步的数据上构建替代损失函数,并使用小批量 SGD(或者通常为了更好的性能,使用 Adam [KB14])对其进行 K 轮优化:

五、EXPERIMENTS

目标函数比较

计算最后 100 个剧集的平均总奖励来对每次算法运行进行评分,得到算法和超参数,截断惩罚得分最高:

六、结论

本文介绍了近端策略优化(Proximal Policy Optimization, PPO),这是一类策略优化方法,它通过多次随机梯度上升迭代来执行每次策略更新。这些方法具有信任域方法的稳定性和可靠性,但实现起来要简单得多,仅需要对原始策略梯度方法的代码进行少量修改即可。此外,它们适用于更广泛的场景(例如,在使用策略和价值函数的联合架构时),并且总体性能更优。

相关文章:

大模型RLHF训练-PPO算法详解:Proximal Policy Optimization Algorithms

一、TL;DR 提出了一种新的策略梯度方法家族,用于强化学习,这些方法交替进行与环境交互采样数据提出了一个新的目标函数,使得能够进行多个小批量更新的多轮训练这些新方法为近端策略优化(Proximal Policy Optimization…...

【STM32实物】基于STM32的扫地机器人/小车控制系统设计

基于STM32的扫地机器人/小车控制系统设计 演示视频: 基于STM32的扫地机器人小车控制系统设计 简介:扫地机器人系统采用分层结构设计,主要包括底层硬件控制层、中间数据处理层和上层用户交互层。底层硬件控制层负责对各个硬件模块进行控制和数据采集,中间数据处理层负责对采…...

【C++初阶】从零开始模拟实现vector(含迭代器失效详细讲解)

目录 1、基本结构 1.1成员变量 1.2无参构造函数 1.3有参构造函数 preserve()的实现 代码部分: push_back()的实现 代码部分: 代码部分: 1.4拷贝构造函数 代码部分: 1.5支持{}初始化的构造函数 代码部分: …...

AI比人脑更强,因为被植入思维模型【21】冯诺依曼思维模型

定义 冯诺依曼思维模型是一种基于数理逻辑和系统分析的思维方式,它将复杂的问题或系统分解为若干个基本的组成部分,通过建立数学模型和逻辑规则来描述和分析这些部分之间的关系,进而实现对整个系统的理解和优化。该模型强调从整体到局部、再…...

Keil5调试技巧

一、引言 Keil5作为一款广泛应用于嵌入式系统开发的集成开发环境(IDE),在微控制器编程领域占据着重要地位。它不仅提供了强大的代码编辑和编译功能,还具备丰富的调试工具,帮助开发者快速定位和解决代码中的问题。本文…...

Web PKI现行应用、标准

中国现行 Web PKI 标准 中国在 Web PKI(公钥基础设施)领域制定了多项国家标准,以确保网络安全和数字证书管理的规范性。以下是一些现行的重要标准: 1. GB/T 21053-2023《信息安全技术 公钥基础设施 PKI系统安全技术要求》 该标…...

ROS多机通信(四)——Ubuntu 网卡 Mesh 模式配置指南

引言 使用Ad-hoc加路由协议和直接Mesh模式配置网卡实现的网络结构是一样的,主要是看应用选择, Ad-Hoc模式 B.A.T.M.A.N. / OLSR 优点:灵活性高,适合移动性强或需要优化的复杂网络。 缺点:配置复杂,需手动…...

【实用部署教程】olmOCR智能PDF文本提取系统:从安装到可视化界面实现

文章目录 引言系统要求1. 环境准备:安装Miniconda激活环境 2. 配置pip源加速下载3. 配置学术加速(访问国外资源)4. 安装系统依赖5. 安装OLMOCR6. 运行OLMOCR处理PDF文档7. 理解OLMOCR输出结果9. 可视化UI界面9.1 安装界面依赖9.2 创建界面应用…...

STM32单片机uCOS-Ⅲ系统11 中断管理

目录 一、异常与中断的基本概念 1、中断的介绍 2、和中断相关的名词解释 二、中断的运作机制 三、中断延迟的概念 四、中断的应用场景 五、中断管理讲解 六、中断延迟发布 1、中断延迟发布的概念 2、中断队列控制块 3、中断延迟发布任务初始化 OS_IntQTaskInit() 4…...

CTF【WEB】学习笔记1号刊

Kali的小工具箱 curl www.xxx.com:查看服务器响应返回的信息 curl -I www.xxx.com:查看响应的文件头 一、cmd执行命令 ipconfig:ip地址配置等; 二、 Kali操作 1.sudo su; 2.msfconsole 3.search ms17_010 永恒之蓝&#xff…...

cpp-友元

理解 C 中的友元(Friend) 在 C 语言中,封装(Encapsulation) 是面向对象编程的重要特性之一。它允许类将数据隐藏在私有(private)或受保护(protected)成员中,…...

Spring AOP 核心概念与实践指南

第一章:AOP 核心概念与基础应用 1.1 AOP 核心思想 ​面向切面编程:通过横向抽取机制解决代码重复问题(如日志、事务、安全等)​核心优势:不修改源代码增强功能,提高代码复用性和可维护性 1.2 基础环境搭…...

利用ffmpeg库实现音频Opus编解码

一、编译与环境配置 ‌libopus库集成‌ 需在编译FFmpeg时添加--enable-libopus参数,编译前需先安装libopus源码并配置动态库路径‌。最新FFmpeg 7.1版本默认支持Opus的浮点运算优化和VBR/CVBR模式‌。 ‌多平台兼容性‌ Opus支持Windows/Linux/macOS平台&#xff0…...

深入理解指针(1)(C语言版)

文章目录 前言一、内存和地址1.1 内存1.2 究竟该如何理解编址 二、指针变量和地址2.1 取地址操作符&2.2 指针变量和解引用操作符*2.2.1 指针变量2.2.2 如何拆解指针类型2.2.3 解引用操作符 2.3 指针变量的大小 三、指针变量类型的意义3.1 指针的解引用3.2 指针-整数3.3 voi…...

计算机网络——通信基础和传输介质

物理层任务:实现相邻节点之间比特(0或1)的传输 到了数据链路层之后,它会以帧为单位,把若干个比特交给物理层,物理层需要把这些比特信息转化成信号,在物理传输媒体上进行传输 通信基础基本概念 信…...

【橘子网络】关于网络分层以及协议的全局讲解

一、网络设备 1、硬件网络设备 1.1、主机(host) 主机的定义比较广泛,所有的接收流量或者发送流量的设备都可以被称之为主机。可以是电脑,手机,服务器。在当今云服务大行其道的局面下,各种云设备也可以被称之为主机。 基于这个…...

macOS 使用 enca 识别 文件编码类型(比 file 命令准确)

文章目录 macOS 上安装 enca基本使用起因 - iconv关于 enca安装 Encaenca & enconv 其它用法 macOS 上安装 enca brew install enca基本使用 enca filepath.txt示例 $ enca 动态规划算法.txt [0] Simplified Chinese National Standard; GB2312CRLF line terminat…...

MySQL 字符集

目录 字符集的基本概念 常见MySQL字符集 ascii(单字节字符集) latin1(单字节字符集) utf8(多字节字符集) utf8mb4(多字节字符集) MySQL默认字符集 MySQL字符集的层次级别 服务器级别 数据库级别 表级别 列级别 连接字符集 字符集是计算机科学中的一个重要概念&…...

Linux shell脚本3-if语句、case语句、for语句、while语句、until语句、break语句、continue语句,格式说明及程序验证

目录 1.if 控制语句 1.1 if 语句格式 1.2 程序验证 2.case语句 2.1case语句格式 2.2程序验证 2.2.1 终端先执行程序,在输入一个数 2.2.2 终端执行程序时同时输入一个预设变量 2.2.3 case带有按位或运算和通配符匹配 3.for语句 3.1for语句格式 3.2程序验…...

基于虚拟知识图谱的语义化决策引擎

在数字化转型浪潮中,企业数据资产的价值释放面临两大挑战:海量异构数据的整合困局与业务-技术语义鸿沟。本文解析飞速创软灵燕智能体平台的创新解决方案——通过构建业务语义驱动的虚拟知识图谱系统,实现企业数据的智能认知与决策赋能。 一、…...

Unity Shader 的编程流程和结构

Unity Shader 的编程流程和结构 Unity Shader 的编程主要由以下三个核心部分组成:Properties(属性)、SubShader(子着色器) 和 Fallback(回退)。下面是它们的具体作用和结构: 1. Pr…...

C++ 继承

目录 一、继承的概念与定义 1.1 继承的概念 1.2 继承的定义 1.2.1 语法 1.2.2 继承关系和访问限定符 1.2.3 继承基类成员访问方式的变化 二、基类和派生类对象赋值转换 三、继承中的作用域 四、派生类的默认成员函数 五、C11 final 六、继承与友元 七、继承与静态成…...

XSS Game(DOM型) 靶场 通关

目录 靶场网址 Ma Spaghet! 分析 解题 Jefff 分析 解题 方法一 方法二 Ugandan Knuckles 分析 解题 Ricardo Milos 分析 解题 Ah Thats Hawt 分析 解题 方法一 方法二 Ligma 分析 解题 ​ Mafia 分析 解题 方法一:构造函数 方法二&#xf…...

XSS基础靶场练习

目录 1. 准备靶场 2. PASS 1. Level 1&#xff1a;无过滤 源码&#xff1a; 2. level2&#xff1a;转HTML实体 htmlspecialchars简介&#xff1a; 源码 PASS 3. level3:转HTML深入 源码&#xff1a; PASS 4. level4:过滤<> 源码&#xff1a; PASS: 5. level5:过滤on 源码…...

leetcode-200.岛屿数量

首先&#xff0c;想要找岛&#xff0c;肯定是要逐个遍历的&#xff0c;否则肯定会漏岛。 其次&#xff0c;我怎么知道两个点是否属于一个岛&#xff1f;只有一个方法&#xff0c;我踏上一个岛的某个点时&#xff0c;我就分别往四周走&#xff0c;且把当前地块毁掉&#xff0c;就…...

Linux | ubuntu安装 SSH 软件及测试工具

01 windows 要怎么和 ubuntu 互传文件呢&#xff0c;我们可以使用 ssh 软件。 终端输入 sudo apt-get install openssh-server &#xff0c;输入登录 Ubuntu 用户的密码&#xff0c;这里我们输入 y 确认安装。如下图所示。 接着继续改 ssh 配置文件&#xff0c;因为 ssh 默认…...

组件日志——etcd

目录 一、简介 二、安装【Ubuntu】 安装etcd 安装CAPI 三、写一个示例 3.0写一个示例代码 3.1获取一个etcd服务 3.2获取租约(写端操作) 3.3使用租约(写端操作) 3.4销毁租约(写端操作) 3.5获取etcd服务中的服务列表(读端操作) 3.6监听状态变化(读端操作) 一、简介 Et…...

search_fields与filterset_fields的使用

在Django中&#xff0c;search_fields 和 filterset_fields 可以在视图类中使用&#xff0c;尤其是在 Django REST Framework (DRF) 中。它们分别用于实现搜索和过滤功能。以下是它们在视图类中的具体使用方法。 1. search_fields 在视图类中的使用 search_fields 是 DRF 中 S…...

SQLite Delete 语句详解

SQLite Delete 语句详解 SQLite 是一种轻量级的数据库管理系统&#xff0c;广泛应用于移动设备、嵌入式系统和服务器端应用。在数据库管理中&#xff0c;删除数据是一项基本操作。SQLite 提供了强大的删除功能&#xff0c;本文将详细介绍 SQLite 的 Delete 语句及其用法。 1.…...

通往自主智能之路:探索自我成长的AI

1. 引言&#xff1a;当前AI范式与自我成长智能的愿景 当前的人工智能领域在很大程度上由大型语言模型&#xff08;LLM&#xff09;的卓越能力所定义。这些模型&#xff0c;例如OpenAI的GPT系列和谷歌的BERT&#xff0c;已经展示了前所未有的理解和生成类人文本的能力。LLM通常…...

[自动化] 【八爪鱼】使用八爪鱼实现CSDN文章自动阅读脚本

在CSDN上&#xff0c;文章的阅读量往往是衡量内容影响力的一个重要指标。为了测试自动化手段能否提高阅读数&#xff0c;我尝试使用网页自动化工具来模拟人工阅读某个ID的文章。 1. 网页自动化的常见方案 谈到网页自动化&#xff0c;Selenium 是一个最常见的选择。它可以通过…...

Kafka消息序列化深度革命:构建高性能、高安全的自定义编码体系

一、突破默认序列化的桎梏 1.1 原生序列化器的致命缺陷 Kafka默认提供的StringSerializer/ByteArraySerializer在复杂场景下暴露三大痛点&#xff1a; 类型安全黑洞&#xff1a;字节流缺乏元数据描述&#xff0c;消费端解析如履薄冰版本兼容困境&#xff1a;数据结构变更导致…...

2025年如何避免使用验证码求解器时被IP封禁

引言 2025年&#xff0c;验证码求解器已成为自动化网络抓取和其他在线流程的关键工具。然而&#xff0c;自动化用户面临的一个常见挑战是IP封禁。当网站检测到自动化活动时&#xff0c;通常会阻止发出请求的IP地址&#xff0c;导致验证码挑战无法解决。本文将探讨使用验证码求…...

前端 AI IDE应用优缺点

嗯&#xff0c;用户问了三个前端面试的问题&#xff0c;我需要仔细分析每个问题&#xff0c;并结合提供的搜索结果来给出全面且准确的回答。 第一个问题是关于开发工具Cursor或Vim的Windurf在开发中的占比以及它们的缺点。从搜索结果里看&#xff0c;网页3提到了Trae对标Curso…...

银河麒麟桌面版包管理器(二)

APT包管理器 APT是Debian及其派生系统的包管理器&#xff0c;构建在dpkg之上&#xff0c;以其强大的依赖性处理能力和丰富的软件仓库而闻名。APT具有自动解决依赖关系、提供易于使用的命令行工具&#xff08;如apt-get、apt-cache等&#xff09;&#xff0c;以及稳定的软件更新…...

Leetcode 3494. Find the Minimum Amount of Time to Brew Potions

Leetcode 3494. Find the Minimum Amount of Time to Brew Potions 1. 解题思路2. 代码实现 题目链接&#xff1a;3494. Find the Minimum Amount of Time to Brew Potions 1. 解题思路 这道题虽说算是搞定了&#xff0c;通过了全部的测试样例&#xff0c;不过还是很暴力的求…...

制作Oracle11g Docker 镜像

基于Linux系统&#xff0c;宿主主机要设置如下环境变量&#xff0c;oracle为64位版本 dockerfile中需要的数据库安装包可从csdn下载内找到 #!/bin/bash # 在宿主机上运行以设置Oracle所需的内核参数 # 这些命令需要root权限cat > /etc/sysctl.d/99-oracle.conf << EO…...

rocky linux下载软件

一、配置国内镜像源加速下载 Rocky Linux 默认使用国外软件源&#xff0c;国内用户可通过替换为阿里云镜像提升下载速度&#xff1a; 备份原配置文件&#xff1a; cp -r /etc/yum.repos.d /etc/yum.repos.d.backup 修改镜像源&#xff1a; sed -e s|^mirrorlist|#mirrorli…...

JVM的组成--运行时数据区

JVM的组成 1、类加载器&#xff08;ClassLoader&#xff09; 类加载器负责将字节码文件从文件系统中加载到JVM中&#xff0c;分为&#xff1a;加载、链接&#xff08;验证、准备、解析&#xff09;、和初始化三个阶段 2、运行时数据区 运行时数据区包括&#xff1a;程序计数…...

SpringBoot中安全的设置阿里云日志SLS的accessKey

众所周知,阿里云的服务都是基于accesskeyId和accesskeySecret来进行身份鉴权的,但唯独日志因为需要写入到.xml文件里对于accesskeyId和accesskeySecret需要进行一定程度的改进,尤其是使用了jasypt进行加密的参数传递进去logback.xml更是会遇到需要对参数进行解密的问题,而官网只…...

DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加导出数据功能示例11,TableView15_11带分页的导出表格示例

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…...

C++多线程编程:从创建到管理的终极指南

在高性能计算时代,掌握多线程编程是提升程序效率的必修课!本文将手把手教你如何用C++11标准库轻松创建和管理线程,告别单线程的“龟速”,让代码跑出多核CPU的性能! 一、多线程为何重要? 充分利用多核CPU:现代计算机普遍支持多核并行,多线程可让程序性能指数级提升。提升…...

人工智能算法基础

基础算法 排序查找线性结构树散列图堆栈 机器学习算法 定义&#xff1a;数据算法 流程&#xff1a;数据收集与预处理、特征选择、训练和测试模型、模型的评估。 监督学习 定义&#xff1a;是从给定的训练数据集中学习出一个函数&#xff0c;当新的数据到来时&#xff0c;可…...

Normal distribution (正态分布)

Normal distribution {正态分布} 1. Normal distribution (正态分布) Gaussian distribution (高斯分布)1.1. Probability density function (概率密度函数)1.2. Standard normal distribution (标准正态分布)1.3. Cumulative distribution function (累积分布函数) 2. 正态分…...

企业级前端架构设计与实战

一、架构设计核心原则 1.1 模块化分层架构 典型目录结构&#xff1a; src/├── assets/ # 静态资源├── components/ # 通用组件├── pages/ # 页面模块├── services/ # API服务层├── store/ # 全局状态管理├── uti…...

数据模型,数据建模,组件,核心价值,使用,意义

数据模型 一组由符号,文本组成的集合, 用以准确表达信息景观, 达到有效交流,沟通的目的 数据建模 是发现,分析和确定数据需求的过程,是一种称为数据模型的精确形式表示和传递这些需求 数据模型的组件 实体, 关系, 属性和域 数据模型的核心价值 交流性 精确性 数据模型的…...

JavaScript 比较运算符

JavaScript 比较运算符 一、基础比较运算符类型 运算符名称示例核心特性==宽松相等"5" == 5 → true隐式类型转换===严格相等"5" === 5 → false类型+值双重校验!=宽松不等null != 0 → true等效于 !(a == b)!==严格不等5 !== "5" → true类型或…...

AI Agent战国时代:Manus挑战者的破局之道与技术博弈

随着Manus引爆通用型AI Agent的"手脑协同"革命&#xff0c;全球AI Agent赛道进入技术竞速期。Flowith、UI-TARS、LangManus等新势力通过差异化路径重构市场格局&#xff0c;背后折射出开源生态、本土化创新与跨模态交互的深层技术博弈。本文结合行业权威报告与公开技…...

linux--时区查看和修改

查看当前时间和时区: 打开终端&#xff0c;输入以下命令查看当前的日期和时间设置&#xff1a; timedatectl修改时区: 使用 timedatectl 命令来修改时区&#xff1a; sudo timedatectl set-timezone <时区>例如&#xff0c;设置时区为北京时间&#xff08;中国标准时间&a…...

个人博客系统 --- 测试报告

一、项目功能介绍 该项目由&#xff1a;登录模块、博客首页模块、博客详情页模块、博客编辑页模块四个功能模块组成。 该系统实现了个人博客的保存以及记录了发布日期、时间、发布人等信息。 二、测试内容与测试用例 我们需要对该系统进行功能测试&#xff0c;界面测试&…...