当前位置: 首页 > news >正文

UP-VLA:具身智体的统一理解与预测模型

25年1月来自清华大学和上海姚期智研究院的论文“UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent”。

视觉-语言-动作 (VLA) 模型的最新进展,利用预训练的视觉语言模型 (VLM) 来提高泛化能力。VLM 通常经过视觉语言理解任务的预训练,提供丰富的语义知识和推理能力。然而,先前的研究表明,VLM 通常专注于高级语义内容而忽略低级特征,从而限制了它们捕获详细空间信息和理解物理动态的能力。这些方面对于机器人控制任务至关重要,但在现有的预训练范式中仍未得到充分探索。本文研究 VLA 的训练范式,并介绍 UP-VLA,一种统一的 VLA 模型训练,具有多模态理解和未来预测目标,可增强高级语义理解和低级空间理解。

构建能够在开放环境中解决多项任务的视觉-语言-动作 (VLA) 模型 (Brohan,2023;Li,2023b) 已成为机器人研究的重点。VLA 模型的一种有前途的方法,涉及在机器人动作数据集上微调大规模预训练的视觉语言模型 (VLM) (Li,2023a;Wang,2022;Dai,2024;Driess,2023),并结合适当的动作建模组件 (Jang,2022;Li,2023b;Wu,2023;Zhang,2024;Kim,2024;Zheng,2024b)。这种方法使 VLA 模型能够继承强大的 VLM 中编码的语义知识和推理能力,从而增强未知环境中的决策能力。

然而,之前的研究已经发现 VLM 的某些弱点,特别是在捕获低级信息和理解物理动态方面(Zheng,2024a;Chen,2024a)。Zheng(2024a)强调,如果没有额外的训练,VLM 在低级视觉任务中表现较弱。Chen(2024a);Wen(2024)指出,预训练的 VLM 缺乏空间理解,无法捕捉距离和大小差异等低级细节。此外,研究(Balazadeh,2024;Ghaffari & Krishnaswamy;Li,2024)揭示 VLM 在理解物理动态方面的能力面临着重大挑战。这些限制主要归因于 VLM 的预训练范式(Wen,2024;Chen,2024a),该范式优先考虑多模态理解任务,例如视觉问答 (VQA),这些任务可以增强语义推理,但可能会忽略对具体决策任务至关重要的低级细节。虽然当前预训练方法提供的泛化优势是可取的,但它们提出一个重要的问题:是否可以开发出更好的训练流程来结合两全其美的优势,既保留语义理解,又强调对控制至关重要的低级特征?

用于通用机器人策略的 VLA 模型。最近的研究探索 VLM(Li,2023a;Wang,2022;Dai,2024;Driess,2023;Wang,2023)在机器人技术中的应用,利用其对语言指令和视觉场景的强大理解。一个值得注意的例子是 RT-2(Brohan,2023),它直接利用 VLM 自回归生成离散动作token,展示 VLA 方法的语义基础能力。最近的研究旨在增强 VLA 模型,使其具有更好的泛化性能 (Kim et al., 2024; O’Neill et al., 2023)、跨实体控制能力 (Black et al., 2024) 和更高的推理效率 (Zhang et al., 2024)。之前的研究 3D-VLA (Zhen et al., 2024) 也探索用于多模态理解和生成的协同训练,但侧重于引入 3d 信息,并使用单独的扩散模型进行生成。

机器人的视觉预训练方法。利用预训练的视觉模型进行机器人感知,已成为机器人控制的一个重要研究领域。早期的研究(Brohan,2022;Jang,2022)采用预训练的视觉编码器,如 ViT(Dosovitskiy,2020)和 EfficientNet(Tan & Le,2019)来编码视觉观察。最近,许多研究结合生成模型(Ho,2020;Blattmann,2023),通过未来帧预测(Guo,2024)和视频生成(Du,2024)来训练策略。例如,SuSIE(Black,2023)通过预测关键帧来学习机器人动作,而 GR-1(Wu,2023)则通过视频生成直接预训练策略。 PAD(Guo,2024)采用扩散模型同时预测未来图像和多步骤动作。IGOR(Chen,2024b)使用压缩视觉变化的潜动作作为低级动作的中间目标。这些研究强调,视觉预测任务可以有利于模型对未见过的场景的视觉泛化。

本文提出一个 UP-VLA 模型,如图所示:其通过多模态理解目标和未来预测目标进行预训练,更好地捕捉高级语义信息和低级空间细节,增强具身决策任务。

请添加图片描述

语言条件下的操作问题,被认为是在由指定特定任务的自由形式语言指令 l 和初始观察 o_1 建模环境下的决策序列。为了演示 D = {τ_1,τ_2,···,τ_n},其中每帧 τ_i = {(o_t,a_t)} 包含视觉观察 o 和动作 a。视觉-语言-动作 (VLA) 模型通常通过最小化 aˆ ∼ π_θ (o, l) 之间的误差,来训练 VLM π_θ 作为机器人动作策略。利用 VLM 的多模态理解能力,VLA 在任务之间具有更好的泛化能力,尤其是增强了对未见过目标的语义理解,并提高了理解或推理复杂自然语言指令的能力。

按照 SeeD-X(Ge,2024)和 Showo(Xie,2024)等方法,用离散图像编码器来处理图像生成任务的编码和解码,同时使用连续视觉编码器来处理多模态理解和推理任务。在训练期间,LLM 输入会根据任务类型给出提示。

这里目标是为 VLA 开发更好的训练方案。如图所示:UP-VLA、基于 VLM 的 VLA 模型和基于预测模型之间的比较。注:右下角的图表展示模拟和现实环境中多个任务的性能,从每种方法中选择最佳的模型。

请添加图片描述

主干

如图所示,用 Phi-1.5 (Li et al., 2023c) 作为底层大语言模型。对于多模态理解任务,遵循标准 VLM 编码方法,通过 CLIP-ViT (Radford et al., 2021) 编码器将图像投射到语言嵌入空间中。然后将这些投影的图像特征与语言嵌入连接起来并输入到大语言模型中。对于图像预测任务,用 VQ-GAN (Esser et al., 2021) 将当前观察的图像编码为离散tokens。不使用噪声预测或掩码重建,而是直接预测在输出token相应位置上的未来图像 token,这鼓励模型关注当前帧中的视觉信息并预测以语言为条件的未来变化。

请添加图片描述

连接视觉预测和多模态理解

为了使 LLM 同时具备视觉预测和多模态理解能力,在训练过程中结合来自机器人数据和图像文本对的未来预测任务。这两类任务可以编码成统一的格式,以便通过 LLM 主干网混合和并行处理。因此,扩展一下多任务方法。

多模态理解。给定一个成对的图像文本问答集 (I,L),通过连续编码器和连接层 E_1 将图像编码到语言嵌入空间中,得到 u = {u_i} = E_1(I)。这些嵌入与文本嵌入 l = {l_i} 连接起来形成多模态输入。为了生成一个可以在理解语言的同时关注图像的文本序列,修改因果注意机制,以便图像token可以互相关注,如图(a)所示。最后,用自回归的方式预测下一个语言token。这个任务可以简要描述为 Lˆ = π_θ^MMU (I, L)。

未来视觉预测。对于图像预测,给定时间 t 的图像和指令对 (O_t , L),用离散编码器 E_2 对当前的视觉观察进行编码:v_t = {v_i } = E_2 (O_t )。与多模态理解任务不同,视觉预测的目标,是通过关注指令提示来编码未来的视觉观察。因此,如图(b)所示,将图像token放在语言token之后,使图像能够关注所有输入信息。同时,引入一个特殊 token PRE 来表示这个新任务。我们不使用下一个 token 预测,而是在图像 token 的相同位置对未来的图像 token 进行建模,这样任务描述为ˆO_t+∆t = π_θ^PRE(O_t, L)。

请添加图片描述

通过联合的预测和理解,增强动作学习

虽然先前的 VLA 方法利用预训练 VLM 的多模态理解知识,但它未能利用丰富的视觉信息和物理动态。

为了解决这一限制,提出一种联合预测和理解行动学习机制。将动作输出与图像预测任务相结合。给定当前的观察-指令对 (O_t, L),模型预测未来的观察和每个时间步的动作序列:(Oˆ_t+∆t, Aˆ_t:t+∆t)=π_θ^PRE(O_t, L),其中 Aˆ对应于动作token位置的最后一层特征。

此外,如上图© 所示,用模型本身生成的场景描述扩展语言指令输入。观测 Ot′ 经过连续视觉编码器 E_1 = MLP(VIT) 处理后,被映射到语言嵌入空间 E_1(O_t′) 中,可直接用作语言token。最后一个组件 π_θ^MMU (O_t, L_prompt) 是当前场景的生成描述,其中 L_prompt 是特定提示,例如“描述此图像”。

最后,通过联合预测生成动作: ( Oˆ_t+∆t, Aˆ_t:t+∆t ) = π_θ^PRE (O_t, L′ )。用一个小型策略头来输出低级动作,其由一个 MAP 模块(单层注意模块)和一个线性层组成:aˆ_t:t+∆t = MLP(MAP(Aˆ_t:t+∆t))。

训练策略

用 Show-o (Xie et al., 2024) 初始化 UP-VLA 的主干。在训练期间,对 LLM 的参数进行全面微调并冻结所有编码器。训练过程可分为两个阶段。在第一阶段,目标是赋予 VLM 视觉预测和多模态理解能力。在第二阶段,专注于使用机器人数据学习动作。对不同的任务应用不同的采样率。

预测和理解预训练阶段。将两个域的训练数据混合在一起:一部分来自 BridgeData(Walke,2023),其中包括 25k 个机械臂演示。这些数据用于未来预测。另一部分来自 LLava-tuning-665k(Liu,2024),其中包括 665k 个图像-文本对,用于增强高级理解能力。

使用动作调整阶段进行预测。该模型在下游具体化任务上进行微调。用联合预测-和-理解的动作学习方法训练 UP-VLA。继续与图像-文本对一起训练,以保持多模态理解能力。

UP-VLA 方法涉及三个建模目标:用于多模态理解的语言建模、用于视觉预测的图像建模和用于具身任务的动作建模。

用于多模态理解的语言建模。给定 M 个视觉token u = {u_i} 和 N 个文本token l = {l_i},用交叉熵损失最大化下一个token似然。

用于视觉预测的图像建模。对于未来的图像预测任务,给定 M 个当前图像tokens v_t = {v_i} 和指令tokens l = {l_i},用交叉熵来预测未来的图像token。

具身任务的动作建模。最小化预测相对位置 aˆ_pos 与真实动作 a_pos 之间的均方误差 (MSE)。末端执行器的离散状态 a_end 通过二元交叉熵损失 (BCE) 进行优化。

最后将这三个损失项组合在一起为最终损失。

对模拟评估,用 CALVIN(Mees,2022),一个开源基准,用于学习长时间语言条件任务。如图(a)所示,CALVIN 环境包含 4 个不同的场景,表示为 ABCD。在 ABCD-D 和 ABC-D 设置上评估 UP-VLA。

现实世界实验涉及 Franka-Emika Panda 机器人上的多个桌面操作任务,包括拾取和放置、布线、按下按钮和打开抽屉。具体来说,收集 6 项技能的 2000 多个演示。如图(b)所示,在简单场景中训练 UP-VLA,同时在更复杂的设置上对其进行测试。在桌子上放置几个见过和未见过的目标来引入干扰,并测试模型是否可以抓住全新的目标,以验证其语义基础能力。同时,评估模型执行更细粒度任务的能力,例如布线、抓取较小的未见过的块或拿起笔。

请添加图片描述

相关文章:

UP-VLA:具身智体的统一理解与预测模型

25年1月来自清华大学和上海姚期智研究院的论文“UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent”。 视觉-语言-动作 (VLA) 模型的最新进展,利用预训练的视觉语言模型 (VLM) 来提高泛化能力。VLM 通常经过视觉语言理解任务的预训练&…...

后端开发ThreadLocal简介

ThreadLocal是线程的局部变量,为每个线程单独提供一份存储空间,具有线程隔离的效果,只有线程内能获取到对应的值 客户端发起的每次请求都对应一个单独的线程 常用方法 public void set(T value) 设置当前线程局部变量值public T get() 返回…...

AI分支知识之机器学习,深度学习,强化学习的关系

机器学习,深度学习,强化学习的关系 这一篇文章我们来探讨下AI领域中机器学习(ML)、深度学习(DL)和强化学习(RL)的关系。 一、机器学习(ML):从数…...

微信小程序案例2——天气微信小程序(学会绑定数据)

文章目录 一、项目步骤1 创建一个weather项目2 进入index.wxml、index.js、index.wxss文件,清空所有内容,进入App.json,修改导航栏标题为“中国天气网”。3进入index.wxml,进行当天天气情况的界面布局,包括温度、最低温、最高温、天气情况、城市、星期、风行情况,代码如下…...

CPLD实现SPI通信

在 CPLD 中编写 SPI 程序时,需根据具体需求(主/从设备、时钟极性、数据位宽等)设计逻辑。以下提供一个 SPI 主控制器的 Verilog 实现示例,支持 模式 0(CPOL=0, CPHA=0),适用于控制外设(如 ADC、DAC、存储器等)。 SPI 主控制器模块设计(Verilog) 模块功能 支持 8/16…...

FFmpeg + OpenGL ES 美颜相机教程大纲

做OpenGL和FFmpeg也有很长一段时间了,最近打算结合FFmpegOpenGL ES做一期视频教程,下面是完整视频教程大纲。最终的项目实战效果是实现一款美颜相机。教程分为理论讲解和实战开发两部分,适合有一定编程基础的开发者。课程计划是免费发布在B站…...

dynamic_cast和static_cast和const_cast

dynamic_cast 在 C 中的作用 dynamic_cast 是 C 运行时类型转换(RTTI, Run-Time Type Identification)的一部分,主要用于: 安全的多态类型转换检查类型的有效性向下转换(Downcasting)跨类层次的指针或引用…...

SQLMesh系列教程-2:SQLMesh入门项目实战

假设你已经了解SQLMesh是什么,以及其他应用场景。如果没有,我建议你先阅读《SQLMesh系列教程-1:数据工程师的高效利器-SQLMesh》。 在本文中,我们将完成一个小项目或教程,以帮助你开始使用SQLMesh。你可以选择一步一步…...

window 安装GitLab服务器笔记

视频: windows下内网本地部署gitlab 资源: Linux CeneOS7: CentOS7 镜像下载地址 VMware: 虚拟机17.6下载地址 安装vim编辑器 yum install vim -y系统环境升级(我第一次没有使用。第二次成功使用了的)…...

【逆向工程】破解unity的安卓apk包

先了解一下普通apk包的逆向方法(无加密或加壳) 开发环境: 操作系统:windows 解apk包 下载工具:apktool【Install Guide | Apktool】按照文档说的操作就行,先安装java运行时环境【我安装的是jre-8u441-wind…...

2021版小程序开发5——小程序项目开发实践(2)-完

2021版小程序开发5——小程序项目开发实践(2) 学习笔记 2025 使用uni-app开发一个电商项目继续&#xff1b; 过滤器的使用 filters: {toFixed(num){return Number(num).toFixed(2)} }<!-- 通过管道符 | 使用过滤器 --> <view> {{ item.price | toFixed }}</vi…...

Spring Boot牵手Redisson:分布式锁实战秘籍

一、引言 在当今的分布式系统架构中,随着业务规模的不断扩大和系统复杂度的日益增加,如何确保多个服务节点之间的数据一致性和操作的原子性成为了一个至关重要的问题。在单机环境下,我们可以轻松地使用线程锁或进程锁来控制对共享资源的访问,但在分布式系统中,由于各个服务…...

【HarmonyOS Next 自定义可拖拽image】

效果图&#xff1a; 代码&#xff1a; import display from "ohos.display" import { AppUtil } from "pura/harmony-utils"/*** 自定义可拖拽图标组件*/ Component export default struct DraggableImage {imageResource?: ResourceimageHeight: numbe…...

基于扑克牌分发效果制作时的问题总结

其基本效果如图 1. 在overlay模式下直接使用position来移动 实现代码 public class Card : MonoBehaviour {public RectTransform target;public Button cardButton;private bool isPack false;public List<RectTransform> cards new List<RectTransform>(…...

为多个GitHub账户配置SSH密钥

背景 当需要同时使用多个GitHub账户&#xff08;例如工作和个人账户&#xff09;时&#xff0c;默认的SSH配置可能导致冲突。本文介绍如何通过生成不同的SSH密钥对并配置SSH客户端来管理多个账户。 操作步骤 生成SSH密钥对 为每个GitHub账户生成独立的密钥对&#xff0c;并指…...

三步本地部署deepseekr1,支持macOs,ubuntu,Windows

一、ollama安装: ollama官网:Ollama Ollama 是一款支持在 Windows、macOS 和 Linux 上本地运行大型语言模型的工具。以下是针对不同操作系统的安装指南: 1、Windows 系统 下载安装包:访问 Ollama 官方下载页面,选择适用于 Windows 的安装包进行下载。 运行安装程序:下…...

STM32 HAL库 CANbus通讯(C语言)

#include "main.h" #include "stm32f1xx_hal.h"CAN_HandleTypeDef hcan; CAN_TxHeaderTypeDef TxHeader; CAN_RxHeaderTypeDef RxHeader; uint8_t TxData[8]; uint8_t RxData[8]; uint32_t TxMailbox;void CAN_Init(void) {// 使能CAN时钟__HAL_RCC_CAN1_C…...

Cotex-M系列介绍

一、芯片设计公司——ARM ARM公司&#xff1a;只做内核设计和IP授权&#xff0c;不参与芯片设计 二、Cortex内核分类及特征...

测试自动化落地方向

一、视觉回归自动化测试&#xff08;低成本高回报&#xff09; 痛点&#xff1a; UI 频繁迭代导致视觉问题难覆盖 方案&#xff1a; 引入Applitools或SikuliX做视觉比对&#xff08;无需维护元素定位&#xff09; 关键路径截图比对&#xff0c;自动检测 UI 错位/样式问题 亮点…...

如何通过优化网站结构提高SEO效果?

很多人以为&#xff0c;SEO就是写写关键词&#xff0c;发点外链&#xff0c;但其实&#xff0c;网站结构才是排名的地基&#xff01;你可以把网站想象成一栋房子&#xff0c;框架没搭好&#xff0c;装饰再漂亮也没用&#xff0c;迟早会塌。同样的道理&#xff0c;如果网站结构混…...

迅雷下载的原理和使用协议的分析

迅雷作为一款广泛使用的下载工具&#xff0c;其核心原理是通过整合多种下载协议和资源分发技术来提升下载速度。以下是对其原理及协议的详细分析&#xff1a; 一、迅雷下载的核心原理 多协议混合下载&#xff08;P2SP&#xff09; P2SP&#xff08;Peer-to-Server-Peer&#xf…...

RPA与深度学习结合

什么是RPA RPA即机器人流程自动化&#xff08;Robotic Process Automation&#xff09;&#xff0c;它是一种利用软件机器人模拟人类在计算机上的操作&#xff0c;按照预设的规则自动执行一系列重复性、规律性任务的技术。这些任务可以包括数据录入、文件处理、报表生成、系统…...

Linux内核模块参数与性能优化:__read_mostly属性的深度剖析

在Linux内核开发中,模块参数和性能优化是两个至关重要的主题。模块参数允许开发者和用户在加载内核模块时动态配置模块的行为,而性能优化则是确保内核高效运行的关键。本文将深入探讨Linux内核中的模块参数机制以及__read_mostly属性的使用,通过实际代码示例和详细解释,帮助…...

Elasticsearch:如何使用 Elastic 检测恶意浏览器扩展

作者&#xff1a;来着 Elastic Aaron Jewitt 当你的 CISO 询问你的任何工作站上是否安装过特定的浏览器扩展时&#xff0c;你多快能得到正确答案&#xff1f;恶意浏览器扩展是一个重大威胁&#xff0c;许多组织无法管理或检测。这篇博文探讨了 Elastic Infosec 团队如何使用 os…...

基于Java的远程视频会议系统(源码+系统+论文)

第一章 概述 1.1 本课题的研究背景 随着人们对视频和音频信息的需求愈来愈强烈&#xff0c;追求远距离的视音频的同步交互成为新的时尚。近些年来&#xff0c;依托计算机技术、通信技术和网络条件的发展&#xff0c;集音频、视频、图像、文字、数据为一体的多媒体信息&#xff…...

SAP-ABAP:FOR ALL ENTRIES IN用法详解带实例代码

在 SAP ABAP 中&#xff0c;FOR ALL ENTRIES IN 是 SELECT 语句中一个非常常用的功能&#xff0c;用于根据内表中的数据查询数据库表。它的主要作用是将内表中的数据作为查询条件&#xff0c;从数据库表中筛选出符合条件的数据。 1. 基本语法 SELECT <fields>FROM <d…...

构建jdk17包含maven的基础镜像

1、先拉取jdk17基础镜像 docker pull openjdk:17-jdk-alpine 2、使用jdk17基础镜像创建容器 docker run -it openjdk:17-jdk-alpine sh 或 docker run -it --name jdk17 openjdk:17-jdk-alpine sh 3、修改镜像源地址 cat /etc/apk/repositories https://mirrors.aliyun.com…...

【Android】版本和API对应关系表

目录 版本和API对应关系表 不积跬步&#xff0c;无以至千里&#xff1b;不积小流&#xff0c;无以成江海。要沉下心来&#xff0c;诗和远方的路费真的很贵&#xff01; 版本和API对应关系表 版本名版本号名称APIAndroid 1616.0W36Android 1515.0V35Android 1414.0U34Android 1…...

Spring Boot 整合 JPA 实现数据持久化

目录 前言 一、JPA 核心概念与实体映射 1. 什么是 JPA&#xff1f; 2. JPA 的主要组件 3. 实体映射 4. 常见的字段映射策略 二、Repository 接口与自定义查询 1. 什么是 Repository 接口&#xff1f; 2. 动态查询方法 3. 自定义查询 4. 分页与排序 三、实战案例&…...

KUKA 机器人仿真——Simpro4.1和OfficeLite8.6.2 连接实现虚拟示教器

一、准备软件 1、Simpro4.1&#xff0c;是一机一密钥&#xff0c;不好破解&#xff0c;我在某宝买的&#xff0c;省事了。 2、OfficeLite8.6.2&#xff0c;看我的博文的第三步虚拟机内安装OfficeLite8.6.2 KUKA示教器仿真软件OfficeLite8.6.2&#xff0c;EthernetKRL3.1.3通信…...

IntelliJ IDEA使用经验(十三):使用Git克隆github的开源项目

文章目录 问题背景办法1、设置git代理&#xff1b;2、再次克隆项目&#xff1b;3、再次按常规方式进行git克隆即可。 问题背景 由于github在国外&#xff0c;很多时候我们在使用idea克隆开源项目的时候&#xff0c;没办法检出&#xff0c;提示 连接重置。 办法 1、设置git代…...

互联网大厂中面试的高频计算机网络问题及详解

前言 哈喽各位小伙伴们,本期小梁给大家带来了互联网大厂中计算机网络部分的高频面试题,本文会以通俗易懂的语言以及图解形式描述,希望能给大家的面试带来一点帮助,祝大家offer拿到手软!!! 话不多说,我们立刻进入本期正题! 一、计算机网络基础部分 1 先来说说计算机网…...

综合实验练习实验报告

一、需求分析 1.防火墙上配置DHCP服务&#xff0c;完成接口配置 2.用户建立以及认证策略建立 3.安全策略建立 二、详细配置 DHCP配置 [FW1]dhcp enable [FW1]int g1/0/1.1 [FW1-GigabitEthernet1/0/1.1]dhcp select interface [FW1]int g1/0/1.2 [FW1-GigabitEthernet…...

Ubuntu22.04 配置deepseek知识库

文章目录 安装 docker配置 dify配置 ollama创建大模型 安装 docker 更新系统&#xff1a;sudo apt update sudo apt upgrade -y安装必要的依赖&#xff1a;sudo apt install apt-transport-https ca-certificates curl software-properties-common -y添加 Docker 的官方 GPG 密…...

如何在WPS和Word/Excel中直接使用DeepSeek功能

以下是将DeepSeek功能集成到WPS中的详细步骤&#xff0c;无需本地部署模型&#xff0c;直接通过官网连接使用&#xff1a;1. 下载并安装OfficeAI插件 &#xff08;1&#xff09;访问OfficeAI插件下载地址&#xff1a;OfficeAI助手 - 免费办公智能AI助手, AI写作&#xff0c;下载…...

Mp4视频播放机无法播放视频-批量修改视频分辨率(帧宽、帧高)

背景 家人有一台夏新多功能 视频播放器(夏新多功能 视频播放器),用来播放广场舞。下载了一些广场舞视频, 只有部分视频可以播放,其他视频均无法播放,判断应该不是帧速率和数据速率的限制, 分析可能是播放器不支持帧高度大于720的视频。由于视频文件较多,需要借助视频编…...

jvm 线程监控调试

文章目录 前言一、使用JDK工具转储线程文件(如jstack)1. 找到Java进程的PID:2. 使用jstack生成线程转储文件:3.验证生成的线程转储文件:二、分析文件1.使用在线工具进行分析上传thread-dump文件,等待解析完成2.查看分析结果总结前言 提示:使用jdk自带工具转储线程监控文…...

超越 DeepSeek V3 -->【Qwen2.5-Max】

&#x1f525; 先说明&#xff0c;不是广子&#xff0c;不是广子&#xff01;&#xff01;&#xff01;单纯分享这个工具给大家&#xff0c;毕竟最近使用 DeepSeek 太容易崩了&#xff0c;每天深度思考一次之后就开始转圈圈用不了&#xff0c;然后就找到了这个工具使用 一、前言…...

301.华为交换机堆叠技术基础

华为交换机堆叠技术基础 一、概念及原理部分1.堆叠简介1.1 什么是堆叠1.2 可靠性网络架构1.3 华为堆叠设备1.4 其他厂商的堆叠2.堆叠的示意图3.堆叠的应用3.1 中小企业3.2 园区网4.堆叠的原理4.1基本的概念4.2 堆叠建立4.3 角色选举4.4 版本同步4.5 配置同步4.6 堆叠系统的登录…...

【开源AI】AI一页一页读PDF

【开源AI】AI一页一页读PDF 可以在这里看 : 让AI 处理 PDF 文件,提取其中的知识点,并生成总结。 只是无法修改,后续若有更新在csdn这里。 【OpenAI】 API 更新: JSON 结构化输出约束机制( JSON Schema) 的一次实战。知识库的JSON Schema形式 每一页都要总结,总结的知识…...

Spring AI 介绍

文章来源&#xff1a;AI 概念 (AI Concepts) _ Spring AI1.0.0-SNAPSHOT中文文档(官方文档中文翻译)|Spring 教程 —— CADN开发者文档中心 本节介绍 Spring AI 使用的核心概念。我们建议仔细阅读它&#xff0c;以了解 Spring AI 是如何实现的。 模型 AI 模型是旨在处理和生成…...

React - 事件绑定this

在 React 中&#xff0c;this 的绑定是一个常见问题&#xff0c;尤其在类组件中使用事件处理函数时。JavaScript 中的 bind 函数用于设置函数调用时 this 的值。 bind 函数的作用 bind() 方法创建一个新的函数&#xff0c;当被调用时&#xff0c;其 this 关键字被设置为提供的…...

【3.Git与Github的历史和区别】

目录 Git的历史和Github的区别本质和功能 Git的历史和Github的区别 Git是由Linux内核的创造者Linus Torvalds于2005年创建的。当时&#xff0c;Linux内核开源项目使用BitKeeper作为版本控制系统&#xff0c;但2005年BitKeeper的商业公司终止了与Linux社区的合作&#xff0c;收…...

【设计模式】【行为型模式】职责链模式(Chain of Responsibility)

&#x1f44b;hi&#xff0c;我不是一名外包公司的员工&#xff0c;也不会偷吃茶水间的零食&#xff0c;我的梦想是能写高端CRUD &#x1f525; 2025本人正在沉淀中… 博客更新速度 &#x1f4eb; 欢迎V&#xff1a; flzjcsg2&#xff0c;我们共同讨论Java深渊的奥秘 &#x1f…...

【算法学习】二分查找开区间写法总结

根据灵神教学中的二分查找开区间写法进行如下总结&#xff1a; 我们需要注意的是&#xff0c;lowerBound 模板求解的是 > target 的最小下标 private int lowerBound(int[] nums, int target) {int left -1;int right nums.length; // 开区间 (left, right)while (left …...

信息科技伦理与道德3-2:智能决策

2.2 智能推荐 推荐算法介绍 推荐系统&#xff1a;猜你喜欢 https://blog.csdn.net/search_129_hr/article/details/120468187 推荐系统–矩阵分解 https://blog.csdn.net/search_129_hr/article/details/121598087 案例一&#xff1a;YouTube推荐算法向儿童推荐不适宜视频 …...

【干活分享】2025年可以免费问答的一些GPT网站-deepseek等免费gpt

2025年已经到来&#xff0c;大家也都陆续回归到忙碌的工作中。在新的一年里&#xff0c;如何更高效地完成工作任务&#xff0c;提升工作效率&#xff0c;是很多人关心的问题。今天&#xff0c;就为大家分享一些实用性很强的GPT网站&#xff0c;帮助大家在工作中事半功倍。 Dee…...

webpack配置之---入口

entry 单入口 由于一般的单页面项目只有一个入口&#xff0c;也就是单入口&#xff0c;单入口的配置方式有以下三种方式&#xff0c;如果有遗漏的欢迎补充 1、字符串方式 以下这几行代码解释&#xff1a; entry&#xff1a;本项目的入口文件 output&#xff1a;本项目打包…...

Golang GORM系列:GORM CRUM操作实战

在数据库管理中&#xff0c;CRUD操作是应用程序的主干&#xff0c;支持数据的创建、检索、更新和删除。强大的Go对象关系映射库GORM通过抽象SQL语句的复杂性&#xff0c;使这些操作变得轻而易举。本文是掌握使用GORM进行CRUD操作的全面指南&#xff0c;提供了在Go应用程序中有效…...

[M模拟] lc380. O(1) 时间插入、删除和获取随机元素(模拟+数据结构+脑筋急转弯+数组快捷删除技巧+项目思考)

文章目录 1. 题目来源2. 题目解析 1. 题目来源 链接&#xff1a;380. O(1) 时间插入、删除和获取随机元素 题单&#xff1a; 待补充 2. 题目解析 其实这个题目抽象一下的话在项目中也能出现&#xff0c;可能日常项目中没有算法基础的话&#xff0c;就很容易直接去进行新内…...