当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(十)

请添加图片描述

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond

➡️ 论文标题:Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
➡️ 论文作者:Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Tianyu Liu, Baobao Chang
➡️ 研究机构: 北京大学、腾讯云AI
➡️ 问题背景:当前的大型语言模型(LLMs)因其卓越的推理能力和广泛的世界知识而被广泛应用于决策过程。然而,这些模型主要设计用于处理文本信息,导致在处理现实世界中的多模态观察时存在模态差距。多模态大型语言模型(MLLMs),特别是视觉大型语言模型(VLLMs),如GPT4-Vision,展示了强大的视觉理解和推理能力,可以直接感知视觉信息,从而可能实现更复杂的推理和决策。
➡️ 研究动机:研究团队旨在探讨当前最先进的VLLMs是否能够以端到端的方式处理各种具身决策任务,以及与LLM驱动的代理相比,这些模型的优势和局限性。此外,研究还探讨了LLMs和VLLMs是否可以通过协作来增强具身决策能力。
➡️ 方法简介:研究团队提出了一个新的评估基准PCA-EVAL,从感知、认知和行动三个维度评估具身决策能力。PCA-EVAL涵盖了自动驾驶、家庭辅助和游戏三个领域。研究团队还提出了HOLMES框架,允许LLMs利用VLLMs和APIs收集多模态信息,以支持决策过程。
➡️ 实验设计:研究团队在PCA-EVAL基准上评估了多个最先进的VLLMs,包括InstructBLIP、MMICL、QwenVL-Chat和GPT4-Vision。此外,研究团队还评估了HOLMES框架,其中LLMs通过多轮对话调用模型或API来寻找线索,并基于发现的线索进行决策。实验结果表明,GPT4-Vision在端到端决策中显著优于其他模型,平均决策准确率提高了26%。在HOLMES框架中,GPT4在所有三个领域中均表现最佳。与GPT4-HOLMES相比,GPT4-Vision在认知和行动评分上也表现出色。

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

➡️ 论文标题:MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
➡️ 论文作者:Kaizhi Zheng, Xuehai He, Xin Eric Wang
➡️ 研究机构: University of California, Santa Cruz
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态理解方面表现出色,但在同时生成连贯的图像和文本方面仍存在不足。特别是在需要综合处理视觉和语言的任务中,这种局限性尤为明显。为了克服这一挑战,研究团队提出了一种新的交错视觉-语言生成方法,通过引入“生成性视觉词汇”(generative vokens)来促进图像和文本的连贯输出。
➡️ 研究动机:现有的多模态大语言模型在生成连贯的图像和文本方面存在局限,尤其是在需要综合处理视觉和语言的任务中。研究团队旨在通过引入“生成性视觉词汇”来增强模型的多模态生成能力,从而提高图像和文本生成的连贯性和一致性。
➡️ 方法简介:研究团队提出了MiniGPT-5,这是一种新的交错视觉-语言生成方法。该方法通过引入“生成性视觉词汇”来桥接文本和视觉特征空间,采用独特的两阶段训练策略,无需详细的图像描述即可进行多模态生成。此外,研究团队还引入了分类器自由引导(classifier-free guidance)技术,以增强生成图像和文本的一致性和连贯性。
➡️ 实验设计:研究团队在CC3M、VIST和MMDialog三个数据集上进行了实验,评估了MiniGPT-5在单轮和多轮交错视觉-语言生成任务中的表现。实验设计了多种任务,包括仅文本生成、仅图像生成和多模态生成,以全面评估模型的性能。实验结果表明,MiniGPT-5在多个基准测试中显著优于基线模型,特别是在多模态生成任务中表现出色。

Kosmos-G: Generating Images in Context with Multimodal Large Language Models

➡️ 论文标题:Kosmos-G: Generating Images in Context with Multimodal Large Language Models
➡️ 论文作者:Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei
➡️ 研究机构: Microsoft Research、New York University、University of Waterloo
➡️ 问题背景:当前的主体驱动图像生成方法在多样化的应用场景中仍存在局限,如需要测试时调优且无法接受交错的多图像和文本输入。这些限制使得这些方法距离“图像作为外语在图像生成中的应用”这一最终目标仍有较大差距。
➡️ 研究动机:为了克服现有方法的局限,研究团队提出了KOSMOS-G模型,该模型利用多模态大语言模型(MLLMs)的高级多模态感知能力,解决了主体驱动生成中的挑战。KOSMOS-G通过“先对齐后指令”的方式,实现了零样本多实体主体驱动生成能力,且无需修改图像解码器的参数,即可无缝集成到各种框架中。
➡️ 方法简介:KOSMOS-G的训练过程分为三个阶段:1) 多模态语言建模,预训练MLLM以处理多模态数据;2) 图像解码器对齐,通过AlignerNet将MLLM的输出空间与U-Net的输入空间对齐;3) 指令调优,通过组合生成任务对KOSMOS-G进行微调,以生成忠实于输入内容的图像。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括DreamBench和MS-COCO。实验评估了KOSMOS-G在单实体主体驱动生成和文本到图像生成任务中的表现。实验结果表明,KOSMOS-G在零样本设置下表现出色,特别是在多实体主体驱动生成方面,显著优于现有的方法。

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

➡️ 论文标题:UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model
➡️ 论文作者:Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Guohai Xu, Chenliang Li, Junfeng Tian, Qi Qian, Ji Zhang, Qin Jin, Liang He, Xin Alex Lin, Fei Huang
➡️ 研究机构: East China Normal University、DAMO Academy, Alibaba Group、Renmin University of China
➡️ 问题背景:在视觉世界中,文本无处不在,传达了关键信息,如在文档、网站和日常照片中。现有的多模态大型语言模型(MLLMs)在视觉和语言理解任务中表现出色,但它们在处理不同类型的图像和广泛的图像尺寸时,仍远未达到通用的视觉情境语言理解能力。例如,从文档中提取信息、从网页中读取文本以及在表格上的视觉问答等任务,现有的模型表现不佳。
➡️ 研究动机:尽管现有的MLLMs在没有领域特定训练的情况下,对低分辨率图像中的显著文本信息具有浅层的零样本视觉文本识别能力,但它们在处理不同类型的图像时表现不佳。为了提高这些模型的通用视觉情境语言理解能力,研究团队提出了UReader,通过低成本的指令调优,利用现有的多模态大型语言模型,实现无OCR的视觉情境语言理解。
➡️ 方法简介:UReader通过利用MLLMs的浅层文本识别能力,仅微调了1.2%的参数,大大降低了训练成本。该模型在广泛的视觉情境语言理解任务上进行了联合微调,采用统一的指令格式。为了增强视觉文本和语义理解能力,研究团队设计了两个辅助任务:文本阅读和关键点生成任务。此外,为了利用MLLMs的低分辨率视觉编码器处理高分辨率图像,研究团队提出了一种形状自适应裁剪模块,将高分辨率图像裁剪成多个局部图像,以避免因调整大小导致的模糊和失真问题。
➡️ 实验设计:UReader在五个领域的10个视觉情境语言理解任务上进行了评估,包括文档、表格、图表、自然图像和网页截图。实验设计了不同的任务,如视觉问答、信息提取、自然语言推理和图像描述,以全面评估模型的性能。实验结果表明,UReader在8个任务上达到了最先进的无OCR性能,且训练成本远低于现有的端到端模型。

Ferret: Refer and Ground Anything Anywhere at Any Granularity

➡️ 论文标题:Ferret: Refer and Ground Anything Anywhere at Any Granularity
➡️ 论文作者:Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
➡️ 研究机构: Columbia University, Apple AI/ML
➡️ 问题背景:在视觉-语言学习中,如何使模型具备空间理解能力是一个基础的研究问题。两个关键能力由此产生:指代(referring)和定位(grounding)。指代要求模型能够准确理解特定给定区域的语义,而定位则要求模型根据给定的语义描述定位区域。然而,现有的工作大多分别学习指代和定位,而人类可以轻松地从一个任务中学习并将其共享知识推广到另一个任务,同时无缝地将指代/定位能力与日常对话和推理相结合。
➡️ 研究动机:为了弥合这一差距,本研究探讨了三个主要问题:(i) 如何在一个框架中统一指代和定位,它们是否会相互受益?(ii) 如何表示人类通常用于指代的各种类型的区域,如点、框、涂鸦,甚至是自由形式的形状?(iii) 如何使指代和定位具有开放词汇、指令跟随和鲁棒性,这对于实际应用至关重要?
➡️ 方法简介:研究团队提出了Ferret,这是一种新的多模态大型语言模型(MLLM),能够理解图像中任何形状或粒度的空间指代,并准确地定位开放词汇的描述。Ferret通过结合离散坐标和连续视觉特征来表示图像中的区域,形成了一种混合区域表示。此外,研究团队还提出了一个空间感知的视觉采样器,能够处理不同形状的区域,从而支持多样化的区域输入,如点、框和自由形式的形状。
➡️ 实验设计:为了训练Ferret,研究团队构建了GRIT,一个包含110万个样本的全面指代和定位指令调优数据集,涵盖了多个层次的空间知识,包括对象、关系、区域描述和复杂推理。GRIT包括文本输入位置输出(grounding)、位置输入文本输出(referring)的数据,以及混合位置和文本的数据。此外,还进行了空间感知的负样本挖掘,以进一步提高模型的鲁棒性。实验结果表明,Ferret在传统指代和定位任务中表现出色,并在需要指代/定位、语义、知识和推理的任务中显著优于现有模型。

相关文章:

多模态大语言模型arxiv论文略读(十)

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond ➡️ 论文标题:Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vi…...

关于 Spring Boot + Vue 前后端开发的打包、测试、监控、预先编译和容器部署 的详细说明,涵盖从开发到生产部署的全流程

以下是关于 Spring Boot Vue 前后端开发的打包、测试、监控、预先编译和容器部署 的详细说明,涵盖从开发到生产部署的全流程: 1. 打包 1.1 后端(Spring Boot) 打包方式 使用 Maven 或 Gradle 打包成可执行的 JAR/WAR 文件&…...

【Raqote】 1.1 路径填充ShaderMaskBlitter 结构体(blitter.rs)

ShaderMaskBlitter 结构体实现了 Blitter trait&#xff0c;用于带遮罩的着色器渲染。 结构体定义 pub struct ShaderMaskBlitter<a> {pub x: i32, // 目标区域的起始x坐标pub y: i32, // 目标区域的起始y坐标pub shader: &a dyn Shader, //…...

如何用 esProc 实现 Oracle 和 MySQL 的混合运算

逻辑数仓可以实现多源混算&#xff0c;但需要配置视图、预处理数据&#xff0c;结构太沉重。duckdb 是轻量级的方案&#xff0c;但没有内置 Oracle 的 connector&#xff0c;自己开发难度又太高。同为轻量级方案&#xff0c;esProc 支持 JDBC 公共接口&#xff0c;可以实现任何…...

zabbix和prometheus选择那个监控呢

文章目录 Zabbix 介绍概述架构组成特点适用场景 Prometheus 介绍概述架构组成特点适用场景 Zabbix vs Prometheus 对比架构与组件Zabbix 架构Prometheus 架构 监控要点与最佳实践告警与可视化ZabbixPrometheus Alertmanager Grafana 伸缩与高可用ZabbixPrometheus 运维成本与…...

SQL 查询中使用 IN 导致性能问题的解决方法

当 SQL 查询中使用 IN 子句导致查询长时间运行或挂起时&#xff0c;通常是由于以下几个原因造成的&#xff1a; 常见原因 IN 列表中的值过多 - 当 IN 子句包含大量值时&#xff08;如数千或更多&#xff09;&#xff0c;数据库需要处理大量比较操作 缺乏合适的索引 - 被查询的…...

UML-饮料自助销售系统(无法找零)序列图

一、题目&#xff1a; 在饮料自动销售系统中&#xff0c;顾客选择想要的饮料。系统提示需要投入的金额&#xff0c;顾客从机器的前端钱币口投入钱币&#xff0c;钱币到达钱币记录仪&#xff0c;记录仪更新自己的选择。正常时记录仪通知分配器分发饮料到机器前端&#xff0c;但可…...

Go语言中的runtime包是用来做什么的?

在Go语言中&#xff0c;runtime包提供了与Go运行时系统的交互接口。以下是runtime包的主要功能和用途&#xff1a; 1. 运行时信息 runtime包可以获取关于Go程序运行时的信息&#xff0c;包括&#xff1a; 内存使用情况&#xff1a;可以查看内存分配和使用的统计信息&#xf…...

【Linux】用C++实现UDP通信:详解socket编程流程

文章目录 协议&#xff08;Protocol&#xff09;协议的核心要素常见协议分类 UDP协议&#xff08;用户数据报协议&#xff09;1. 基本定义2. 核心特性 UDP协议实现通信服务器端Comm.hppInetAddr.hppUdpServer.hppUdpServer.cc 客户端 总结 协议&#xff08;Protocol&#xff09…...

代码随想录-06-二叉树-02.二叉树的递归遍历

二叉树的递归遍历 递归思路 确定递归函数的参数parameter和返回值确定终止条件确定单层递归逻辑 具体代码 CPP 前序遍历 vector<int> res; void traversal(TreeNode *root){if(!root)return;res.push_back(root->val);traversal(root->left);traversal(root-…...

一文详解ffmpeg环境搭建:Ubuntu系统ffmpeg配置nvidia硬件加速

在Ubuntu系统下安装FFmpeg有多种方式,其中最常用的是通过apt-get命令和源码编译安装。本文将分别介绍这两种方式,并提供安装过程。 一、apt-get安装 使用apt-get命令安装FFmpeg是最简单快捷的方式,只需要在终端中输入以下命令即可: # 更新软件包列表 sudo apt-get updat…...

(四)深入理解AVFoundation-播放:高度自定义视频播放器 UI

引言 在之前的博客中&#xff0c;我们已经介绍了如何实现一个简单的播放器&#xff0c;并通过监听资源和播放器的属性来提升播放体验。因此本篇博客将带你进一步自定义播放器 UI。通过构建自己的播放控制界面&#xff08;如播放/暂停按钮、进度条、全屏切换等&#xff09;&…...

sqli-labs靶场 less6

文章目录 sqli-labs靶场less 6 报错注入 sqli-labs靶场 每道题都从以下模板讲解&#xff0c;并且每个步骤都有图片&#xff0c;清晰明了&#xff0c;便于复盘。 sql注入的基本步骤 注入点注入类型 字符型&#xff1a;判断闭合方式 &#xff08;‘、"、’、“”&#xf…...

数据库架构全解析:MyCat、MHA、ProxySQL 的原理、功能与实例

前言 &#xff1a; 在分布式数据库架构中&#xff0c;分库分表、高可用性&#xff08;HA&#xff09;和查询优化是核心需求。本文将深入解析三款主流工具&#xff1a;MyCat&#xff08;分布式数据库中间件&#xff09;、MHA&#xff08;MySQL高可用方案&#xff09;、ProxySQL…...

【hadoop】Hive数据仓库安装部署

一、MySQL的安装与配置 换源&#xff1a; 最下面附加部分 1、在master上直接使用yum命令在线安装MySQL数据库&#xff1a; sudo yum install mysql-server 途中会询问是否继续&#xff0c;输入Y并按回车。 2、启动MySQL服务&#xff1a; sudo service mysqld start 3、设…...

Unity Addressables资源生命周期自动化监控技术详解

一、Addressables资源生命周期管理痛点 1. 常见资源泄漏场景 泄漏类型典型表现检测难度隐式引用泄漏脚本持有AssetReference未释放高异步操作未处理AsyncOperationHandle未释放中循环依赖泄漏资源相互引用无法释放极高事件订阅泄漏未取消事件监听导致对象保留高 2. 传统管理…...

Linux网络编程——深入理解TCP的可靠性、滑动窗口、流量控制、拥塞控制

目录 一、前言 二、流量控制 三、TCP的滑动窗口 1、原理 2、机制 3、数据重发 Ⅰ、只是确认应答包(ACK)丢了 Ⅱ、发送数据包丢失 4、缓冲区结构 四、TCP的拥塞控制 1、慢启动 2、拥塞避免 3、快速重传 4、快速恢复 五、延迟应答 六、捎带应答 七、再谈TCP的面…...

Manifold-IJ 2022.1.21 版本解析:IntelliJ IDEA 的 Java 增强插件指南

Manifold-IJ-2022.1.21 可能是 IntelliJ IDEA 的一个插件或相关版本&#xff0c;特别是与 Manifold 这个增强 Java 开发体验的框架相关的组件。 很多时候没有网络环境&#xff0c;而又需要这个插件。 Manifold-IJ 2022.1.21下载&#xff1a;https://pan.quark.cn/s/ad907344c…...

linux内核

一 初识linux内核 1.1操作系统和内核简介 操作系统的精确定义并没有一个统一的标准&#xff0c;这里我认为操作系统是指整个系统负责完成最基本功能和系统管理的那些部分 这些部分包括内核&#xff0c;设备驱动程序&#xff0c;启动引导程序&#xff0c;基本的文件管理工具和…...

基于CNN-LSTM-GRU的深度Q网络(Deep Q-Network,DQN)求解移动机器人路径规划,MATLAB代码

一、深度Q网络&#xff08;Deep Q-Network&#xff0c;DQN&#xff09;介绍 1、背景与动机 深度Q网络&#xff08;DQN&#xff09;是深度强化学习领域的里程碑算法&#xff0c;由DeepMind于2013年提出。它首次在 Atari 2600 游戏上实现了超越人类的表现&#xff0c;解决了传统…...

C++23新特性:显式对象形参与显式对象成员函数

文章目录 一、背景与动机二、语法与基本使用三、优势与应用场景&#xff08;一&#xff09;简化代码&#xff08;二&#xff09;提升模板编程灵活性&#xff08;三&#xff09;与Lambda表达式结合 四、限制与注意事项五、总结 C23标准引入了一项重要的语言特性——显式对象形参…...

leetcode_242. 有效的字母异位词_java

242. 有效的字母异位词https://leetcode.cn/problems/valid-anagram/ 1、题目 给定两个字符串 s 和 t &#xff0c;编写一个函数来判断 t 是否是 s 的字母异位词&#xff08;字母异位词是通过重新排列不同单词或短语的字母而形成的单词或短语&#xff0c;并使用所有原字母一次…...

【Docker基础】容器技术详解:生命周期、命令与实战案例

文章目录 一、什么是容器&#xff1f;二、为什么需要容器三、容器的生命周期容器状态容器OOM容器异常退出容器异常退出容器暂停 四、容器命令命令清单详细介绍 五、容器操作案例容器的状态迁移容器批量操作容器交互模式attached 模式detached 模式interactive 模式 容器 与 宿主…...

电子电气架构 --- 为配备区域计算的下一代电子/电气(E/E)架构

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 周末洗了一个澡,换了一身衣服,出了门却不知道去哪儿,不知道去找谁,漫无目的走着,大概这就是成年人最深的孤独吧! 旧人不知我近况,新人不知我过…...

python基础:位置互换

n int(input()) for _ in range(n):line input().strip()line list(line)for i in range(1,len(line)1):if i%2 0:line[i-2], line[i-1] line[i-1],line[i-2] print(.join(line))以下分不同数据类型说明 Python 实现奇偶互换的方法&#xff1a; 字符串的奇偶位互换 若字…...

51单片机Day03---让一个LED灯闪烁

目录 1.研究原理图&#xff1a; 2.一些小知识&#xff08;重定义的使用&#xff09;&#xff1a; &#xff08;1&#xff09;在单片机中&#xff0c;unsigned int 常用于以下场景&#xff1a; &#xff08;2&#xff09;unsigned char&#xff1a; 3.思路构造&#xff1a;…...

城电科技 | 从概念到落地:如何打造真正的智慧零碳园区?

在科技飞速发展的当下&#xff0c;智慧零碳园区成为了引领未来发展的重要范式。那么&#xff0c;究竟什么是智慧零碳园区呢&#xff1f; 智慧零碳园区&#xff0c;是借助前沿信息技术&#xff0c;把物联网、云计算、大数据等技术深度融入园区管理及产业运营&#xff0c;以此达…...

oracle常见问题处理集锦

oracle常见问题处理集锦 oracle常见问题处理集锦ORA:28000 the count is locked oracle常见问题处理集锦 ORA:28000 the count is locked ORA-28000: 账户已被锁定 这个错误表示你尝试登录的 Oracle 数据库用户账户已被锁定&#xff0c;常见原因包括&#xff1a; 多次密码输错…...

Java-JDBC入门程序、预编译SQL

一. JDBC JDBC&#xff1a;Java DataBase Connectivity 就是使用Java语言操作关系型数据库的一套API 本质&#xff1a;sun公司官方定义一套操作所有关系型数据库的规范&#xff0c;即接口&#xff1b;各个数据库厂商去实现这套接口&#xff0c;提供数据库驱动jar包。我们可以使…...

【SQL】基于多源SQL 去重方法对比 -- 精华版

【SQL】基于SQL 去重方法对比 -- 精华版 一、引言二、基于SQL去重方法完整对比1. MySQL去重方法及优劣势1.1 ​DISTINCT关键字1.2 GROUP BY子句1.3 UNION系列操作1.4 子查询 自关联 2. Hive去重方法及优劣势2.1 DISTINCT关键字2.2 ​GROUP BY子句2.3 ​ROW_NUMBER窗口函数2.4 …...

list的使用以及模拟实现

本章目标 1.list的使用 2.list的模拟实现 1.list的使用 在stl中list是一个链表,并且是一个双向带头循环链表,这种结构的链表是最优结构. 因为它的实现上也是一块线性空间,它的使用上是与string和vector类似的.但相对的因为底层物理结构上它并不像vector是线性连续的,它并没有…...

java继承练习

//创建父类public class Employee {private String id;private String name;private double salary;public Employee() {}public Employee(String id, String name, double salary) {this.id id;this.name name;this.salary salary;}public String getId() {return id;}pu…...

猫咪如厕检测与分类识别系统系列【一】 功能需求分析及猫咪分类特征提取

开发背景 家里养了三只猫咪&#xff0c;其中一只布偶猫经常出入厕所。但因为平时忙于学业&#xff0c;没法时刻关注牠的行为。我知道猫咪的如厕频率和时长与健康状况密切相关&#xff0c;频繁如厕可能是泌尿问题&#xff0c;停留过久也可能是便秘或不适。为了更科学地了解牠的…...

sparkcore编程算子

今天是Spark Core编程算子 Value类型算子 1. map 将处理的数据逐条进行映射转换&#xff0c;这里的转换可以是类型的转换&#xff0c;也可以是值的转换。Map算子是分区内一个数据一个数据的执行&#xff0c;类似于串行操作。 特点&#xff1a; - 主要目的将数据源中的数据进行…...

【EI会议】第三届机器人与软件工程前沿国际会议(FRSE 2025)

第三届机器人与软件工程前沿国际会议&#xff08;FRSE 2025&#xff09;将于2025年8月8日-10日在中国张家界召开。会议由清华大学自动化系主办&#xff0c;长沙理工大学、湖南科技大学、吉首大学、AC学术中心协办。 一、会议信息 大会官网&#xff1a;www.icfrse.org 会议时…...

机器人系统仿真--1.机器人模型URDF

添加机器人地盘...

具身机器人中AI(DEEPSEEK)与PLC、驱动器协同发展研究:突破数据困境与指令精确控制(3)

具身机器人中AI&#xff08;DEEPSEEK&#xff09;与PLC、驱动器协同发展研究&#xff1a;突破数据困境与指令精确控制&#xff08;1&#xff09;-CSDN博客 具身机器人中AI&#xff08;DEEPSEEK&#xff09;与PLC、驱动器协同发展研究&#xff1a;突破数据困境与指令精确控制&a…...

+++++背到厌倦。持续更新

Spring IoC 的工作流程: 读取 BeanDefinition: Spring 容器启动时&#xff0c;会读取 Bean 的配置信息 (例如 XML 配置文件、注解或 Java 代码)&#xff0c;并将这些配置信息转换为 BeanDefinition 对象。创建 Bean 实例: 根据 BeanDefinition 中的信息&#xff0c;Spring 容器…...

修改 docker 工作目录

一、停掉 containerd、cri-docker、docker systemctl stop containerd systemctl stop cri-docker systemctl stop docker 二、拷贝 docker 工作目录下的所有文件到新路径 rsync -aP /var/lib/docker/ /docker/data/ 三、daemon.json 添加新工作目录路径 {"registry-…...

51c嵌入式~继电器~合集1

我自己的原文哦~ https://blog.51cto.com/whaosoft/13775821 一、继电器应用细节 继电器的应用&#xff0c;相信大家都知道&#xff0c;在电路中只要给它供电、断电也就可以工作了。本文讨论它的应用细节。 现在流行的接法 图中&#xff0c;继电器的线圈经过Q1作为开关&am…...

舵机:机器人领域的“关节革命者”

机器人的技术&#xff0c;每一个细微的进步都可能引领一场行业变革。而在这场变革中&#xff0c;舵机作为机器人关节的核心部件&#xff0c;正悄然上演着一场革命性的应用风暴。从简单的关节运动到复杂的姿态控制&#xff0c;舵机以其卓越的性能和无限的可能&#xff0c;重新定…...

飞书集成衡石ChatBot实战:如何10分钟搭建一个业务数据问答机器人?

让数据查询像聊天一样简单 在快节奏的业务环境中&#xff0c;数据查询的实时性和便捷性至关重要。传统BI工具需要复杂的操作&#xff0c;而衡石ChatBot结合飞书&#xff0c;让业务人员只需在聊天窗口提问&#xff0c;就能立刻获取数据反馈&#xff0c;真正实现“零门槛”数据分…...

高并发环境下超发现象的详细分析,包含场景示例、影响分析及解决方案(悲观锁、乐观锁、分布式锁)

以下是针对高并发环境下超发现象的详细分析&#xff0c;包含场景示例、影响分析及解决方案&#xff1a; 高并发下的超发详解 1. 超发现象定义 超发&#xff08;Over-issuance&#xff09;指在并发操作中&#xff0c;系统实际发放的资源&#xff08;如商品库存&#xff09;超过…...

Git 分支整合策略:Cherry-pick、Merge、Rebase 三者之间对比

Git 分支整合策略详解&#xff1a;Cherry-pick、Merge、Rebase 在日常的 Git 多分支协作开发中&#xff0c;代码合并是常见操作。Git 中主要提供以下三种方式来合并或迁移分支的提交&#xff1a; Cherry-pick&#xff1a;精确挑选部分提交复制到当前分支&#xff1b;Merge&am…...

嵌入式八股---计算机网络篇

前言 这块主要是结合着LWIP去理解计算机网络中常见的面试题 OSI四层/五层/七层模型 OSI分层&#xff08;7层&#xff09;&#xff1a;物理层、数据链路层、网络层、传输层、会话层(http)、表示层(加密)、应用层。 TCP/IP分层&#xff08;4层&#xff09;&#xff1a;网络接口层…...

使用 3D Layout 和 Icepak 进行 PCB、DCIR 和热分析

在本教程中&#xff0c;您将学习如何使用 3D Layout 执行 DCIR&#xff0c;然后使用功率损耗数据执行热分析。热分析将使用电子桌面 Icepak 进行。SIwave 及其嵌入式 icepak 可用于执行相同的分析&#xff0c;但有一个例外。电子桌面 Icepak 是一款功能齐全的 3D 工具。用户可以…...

UE5 Windows游戏窗口置顶

参考资料&#xff1a;UE5 UE4 项目设置全局置顶_ue4运行设置置顶-CSDN博客 修改完build.cs后&#xff0c;关掉重新生成解决方案。&#xff08;不然可能编译报错&#xff0c;在这卡了半个小时&#xff09; 不知道怎么用C的&#xff0c;可以用这个 Topmost - Keep Editor/Game w…...

【Linux】进程管理

一、程序与进程区别 1.程序&#xff1a; 存放在磁盘文件可执行文件&#xff08;静态存在&#xff09; 特点 静态性&#xff1a;程序是静态的&#xff0c;它只是一组指令的集合&#xff0c;在未被执行时&#xff0c;不会占用计算机的运行资源&#xff0c;也不会产生任何实际的…...

Android Studio PNG转SVG方法总结

在 Android Studio 中&#xff0c;将 PNG 位图转换为 SVG 矢量图并非直接内置的功能&#xff0c;但你可以通过以下步骤实现目标&#xff1a; 方法 1&#xff1a;使用在线转换工具 访问在线转换网站 推荐工具&#xff1a; CloudConvert Vector Magic OnlineConvertFree 上传…...

第6篇:Linux程序访问控制FPGA端LEDR<四>

Q&#xff1a;如何设计.c程序代码控制FPGA端外设LEDR动态显示&#xff1f; A&#xff1a;我们来设计程序实现简易计数器&#xff1a;将上一期点亮LEDR的程序代码*LEDR_ptr 0x2aa 改为 *LEDR_ptr *LEDR_ptr 1&#xff0c;读取LEDR端口的data寄存器&#xff0c;将寄存器值递增…...