当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（十）

news 来源：原创 2025/9/17 5:39:19

请添加图片描述

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond

➡️ 论文标题：Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
➡️ 论文作者：Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Tianyu Liu, Baobao Chang
➡️ 研究机构: 北京大学、腾讯云AI
➡️ 问题背景：当前的大型语言模型（LLMs）因其卓越的推理能力和广泛的世界知识而被广泛应用于决策过程。然而，这些模型主要设计用于处理文本信息，导致在处理现实世界中的多模态观察时存在模态差距。多模态大型语言模型（MLLMs），特别是视觉大型语言模型（VLLMs），如GPT4-Vision，展示了强大的视觉理解和推理能力，可以直接感知视觉信息，从而可能实现更复杂的推理和决策。
➡️ 研究动机：研究团队旨在探讨当前最先进的VLLMs是否能够以端到端的方式处理各种具身决策任务，以及与LLM驱动的代理相比，这些模型的优势和局限性。此外，研究还探讨了LLMs和VLLMs是否可以通过协作来增强具身决策能力。
➡️ 方法简介：研究团队提出了一个新的评估基准PCA-EVAL，从感知、认知和行动三个维度评估具身决策能力。PCA-EVAL涵盖了自动驾驶、家庭辅助和游戏三个领域。研究团队还提出了HOLMES框架，允许LLMs利用VLLMs和APIs收集多模态信息，以支持决策过程。
➡️ 实验设计：研究团队在PCA-EVAL基准上评估了多个最先进的VLLMs，包括InstructBLIP、MMICL、QwenVL-Chat和GPT4-Vision。此外，研究团队还评估了HOLMES框架，其中LLMs通过多轮对话调用模型或API来寻找线索，并基于发现的线索进行决策。实验结果表明，GPT4-Vision在端到端决策中显著优于其他模型，平均决策准确率提高了26%。在HOLMES框架中，GPT4在所有三个领域中均表现最佳。与GPT4-HOLMES相比，GPT4-Vision在认知和行动评分上也表现出色。

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

➡️ 论文标题：MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
➡️ 论文作者：Kaizhi Zheng, Xuehai He, Xin Eric Wang
➡️ 研究机构: University of California, Santa Cruz
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在多模态理解方面表现出色，但在同时生成连贯的图像和文本方面仍存在不足。特别是在需要综合处理视觉和语言的任务中，这种局限性尤为明显。为了克服这一挑战，研究团队提出了一种新的交错视觉-语言生成方法，通过引入“生成性视觉词汇”（generative vokens）来促进图像和文本的连贯输出。
➡️ 研究动机：现有的多模态大语言模型在生成连贯的图像和文本方面存在局限，尤其是在需要综合处理视觉和语言的任务中。研究团队旨在通过引入“生成性视觉词汇”来增强模型的多模态生成能力，从而提高图像和文本生成的连贯性和一致性。
➡️ 方法简介：研究团队提出了MiniGPT-5，这是一种新的交错视觉-语言生成方法。该方法通过引入“生成性视觉词汇”来桥接文本和视觉特征空间，采用独特的两阶段训练策略，无需详细的图像描述即可进行多模态生成。此外，研究团队还引入了分类器自由引导（classifier-free guidance）技术，以增强生成图像和文本的一致性和连贯性。
➡️ 实验设计：研究团队在CC3M、VIST和MMDialog三个数据集上进行了实验，评估了MiniGPT-5在单轮和多轮交错视觉-语言生成任务中的表现。实验设计了多种任务，包括仅文本生成、仅图像生成和多模态生成，以全面评估模型的性能。实验结果表明，MiniGPT-5在多个基准测试中显著优于基线模型，特别是在多模态生成任务中表现出色。

Kosmos-G: Generating Images in Context with Multimodal Large Language Models

➡️ 论文标题：Kosmos-G: Generating Images in Context with Multimodal Large Language Models
➡️ 论文作者：Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei
➡️ 研究机构: Microsoft Research、New York University、University of Waterloo
➡️ 问题背景：当前的主体驱动图像生成方法在多样化的应用场景中仍存在局限，如需要测试时调优且无法接受交错的多图像和文本输入。这些限制使得这些方法距离“图像作为外语在图像生成中的应用”这一最终目标仍有较大差距。
➡️ 研究动机：为了克服现有方法的局限，研究团队提出了KOSMOS-G模型，该模型利用多模态大语言模型（MLLMs）的高级多模态感知能力，解决了主体驱动生成中的挑战。KOSMOS-G通过“先对齐后指令”的方式，实现了零样本多实体主体驱动生成能力，且无需修改图像解码器的参数，即可无缝集成到各种框架中。
➡️ 方法简介：KOSMOS-G的训练过程分为三个阶段：1) 多模态语言建模，预训练MLLM以处理多模态数据；2) 图像解码器对齐，通过AlignerNet将MLLM的输出空间与U-Net的输入空间对齐；3) 指令调优，通过组合生成任务对KOSMOS-G进行微调，以生成忠实于输入内容的图像。
➡️ 实验设计：研究团队在多个数据集上进行了实验，包括DreamBench和MS-COCO。实验评估了KOSMOS-G在单实体主体驱动生成和文本到图像生成任务中的表现。实验结果表明，KOSMOS-G在零样本设置下表现出色，特别是在多实体主体驱动生成方面，显著优于现有的方法。

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

➡️ 论文标题：UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model
➡️ 论文作者：Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Guohai Xu, Chenliang Li, Junfeng Tian, Qi Qian, Ji Zhang, Qin Jin, Liang He, Xin Alex Lin, Fei Huang
➡️ 研究机构: East China Normal University、DAMO Academy, Alibaba Group、Renmin University of China
➡️ 问题背景：在视觉世界中，文本无处不在，传达了关键信息，如在文档、网站和日常照片中。现有的多模态大型语言模型（MLLMs）在视觉和语言理解任务中表现出色，但它们在处理不同类型的图像和广泛的图像尺寸时，仍远未达到通用的视觉情境语言理解能力。例如，从文档中提取信息、从网页中读取文本以及在表格上的视觉问答等任务，现有的模型表现不佳。
➡️ 研究动机：尽管现有的MLLMs在没有领域特定训练的情况下，对低分辨率图像中的显著文本信息具有浅层的零样本视觉文本识别能力，但它们在处理不同类型的图像时表现不佳。为了提高这些模型的通用视觉情境语言理解能力，研究团队提出了UReader，通过低成本的指令调优，利用现有的多模态大型语言模型，实现无OCR的视觉情境语言理解。
➡️ 方法简介：UReader通过利用MLLMs的浅层文本识别能力，仅微调了1.2%的参数，大大降低了训练成本。该模型在广泛的视觉情境语言理解任务上进行了联合微调，采用统一的指令格式。为了增强视觉文本和语义理解能力，研究团队设计了两个辅助任务：文本阅读和关键点生成任务。此外，为了利用MLLMs的低分辨率视觉编码器处理高分辨率图像，研究团队提出了一种形状自适应裁剪模块，将高分辨率图像裁剪成多个局部图像，以避免因调整大小导致的模糊和失真问题。
➡️ 实验设计：UReader在五个领域的10个视觉情境语言理解任务上进行了评估，包括文档、表格、图表、自然图像和网页截图。实验设计了不同的任务，如视觉问答、信息提取、自然语言推理和图像描述，以全面评估模型的性能。实验结果表明，UReader在8个任务上达到了最先进的无OCR性能，且训练成本远低于现有的端到端模型。

Ferret: Refer and Ground Anything Anywhere at Any Granularity

➡️ 论文标题：Ferret: Refer and Ground Anything Anywhere at Any Granularity
➡️ 论文作者：Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
➡️ 研究机构: Columbia University, Apple AI/ML
➡️ 问题背景：在视觉-语言学习中，如何使模型具备空间理解能力是一个基础的研究问题。两个关键能力由此产生：指代（referring）和定位（grounding）。指代要求模型能够准确理解特定给定区域的语义，而定位则要求模型根据给定的语义描述定位区域。然而，现有的工作大多分别学习指代和定位，而人类可以轻松地从一个任务中学习并将其共享知识推广到另一个任务，同时无缝地将指代/定位能力与日常对话和推理相结合。
➡️ 研究动机：为了弥合这一差距，本研究探讨了三个主要问题：(i) 如何在一个框架中统一指代和定位，它们是否会相互受益？(ii) 如何表示人类通常用于指代的各种类型的区域，如点、框、涂鸦，甚至是自由形式的形状？(iii) 如何使指代和定位具有开放词汇、指令跟随和鲁棒性，这对于实际应用至关重要？
➡️ 方法简介：研究团队提出了Ferret，这是一种新的多模态大型语言模型（MLLM），能够理解图像中任何形状或粒度的空间指代，并准确地定位开放词汇的描述。Ferret通过结合离散坐标和连续视觉特征来表示图像中的区域，形成了一种混合区域表示。此外，研究团队还提出了一个空间感知的视觉采样器，能够处理不同形状的区域，从而支持多样化的区域输入，如点、框和自由形式的形状。
➡️ 实验设计：为了训练Ferret，研究团队构建了GRIT，一个包含110万个样本的全面指代和定位指令调优数据集，涵盖了多个层次的空间知识，包括对象、关系、区域描述和复杂推理。GRIT包括文本输入位置输出（grounding）、位置输入文本输出（referring）的数据，以及混合位置和文本的数据。此外，还进行了空间感知的负样本挖掘，以进一步提高模型的鲁棒性。实验结果表明，Ferret在传统指代和定位任务中表现出色，并在需要指代/定位、语义、知识和推理的任务中显著优于现有模型。

多模态大语言模型arxiv论文略读（十）

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond ➡️ 论文标题：Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vi…...

编程日记 2025/9/17 5:39:19

关于 Spring Boot + Vue 前后端开发的打包、测试、监控、预先编译和容器部署的详细说明，涵盖从开发到生产部署的全流程

以下是关于 Spring Boot Vue 前后端开发的打包、测试、监控、预先编译和容器部署的详细说明，涵盖从开发到生产部署的全流程： 1. 打包 1.1 后端（Spring Boot） 打包方式使用 Maven 或 Gradle 打包成可执行的 JAR/WAR 文件&…...

编程日记 2025/9/16 5:56:57

【Raqote】 1.1 路径填充ShaderMaskBlitter 结构体（blitter.rs）

ShaderMaskBlitter 结构体实现了 Blitter trait，用于带遮罩的着色器渲染。结构体定义 pub struct ShaderMaskBlitter<a> {pub x: i32, // 目标区域的起始x坐标pub y: i32, // 目标区域的起始y坐标pub shader: &a dyn Shader, //…...

编程日记 2025/9/14 4:00:05

如何用 esProc 实现 Oracle 和 MySQL 的混合运算

逻辑数仓可以实现多源混算，但需要配置视图、预处理数据，结构太沉重。duckdb 是轻量级的方案，但没有内置 Oracle 的 connector，自己开发难度又太高。同为轻量级方案，esProc 支持 JDBC 公共接口，可以实现任何…...

编程日记 2025/9/8 15:50:30

zabbix和prometheus选择那个监控呢

文章目录 Zabbix 介绍概述架构组成特点适用场景 Prometheus 介绍概述架构组成特点适用场景 Zabbix vs Prometheus 对比架构与组件Zabbix 架构Prometheus 架构监控要点与最佳实践告警与可视化ZabbixPrometheus Alertmanager Grafana 伸缩与高可用ZabbixPrometheus 运维成本与…...

编程日记 2025/9/17 5:38:22

SQL 查询中使用 IN 导致性能问题的解决方法

当 SQL 查询中使用 IN 子句导致查询长时间运行或挂起时，通常是由于以下几个原因造成的： 常见原因 IN 列表中的值过多 - 当 IN 子句包含大量值时（如数千或更多），数据库需要处理大量比较操作缺乏合适的索引 - 被查询的…...

编程日记 2025/9/17 5:36:50

UML-饮料自助销售系统（无法找零）序列图

一、题目： 在饮料自动销售系统中，顾客选择想要的饮料。系统提示需要投入的金额，顾客从机器的前端钱币口投入钱币，钱币到达钱币记录仪，记录仪更新自己的选择。正常时记录仪通知分配器分发饮料到机器前端，但可…...

编程日记 2025/9/12 17:41:55

Go语言中的runtime包是用来做什么的？

在Go语言中，runtime包提供了与Go运行时系统的交互接口。以下是runtime包的主要功能和用途： 1. 运行时信息 runtime包可以获取关于Go程序运行时的信息，包括： 内存使用情况：可以查看内存分配和使用的统计信息&#xf…...

编程日记 2025/9/17 5:38:22

【Linux】用C++实现UDP通信：详解socket编程流程

文章目录协议（Protocol）协议的核心要素常见协议分类 UDP协议（用户数据报协议）1. 基本定义2. 核心特性 UDP协议实现通信服务器端Comm.hppInetAddr.hppUdpServer.hppUdpServer.cc 客户端总结协议（Protocol&#xff09…...

编程日记 2025/9/17 5:39:11

代码随想录-06-二叉树-02.二叉树的递归遍历

二叉树的递归遍历递归思路确定递归函数的参数parameter和返回值确定终止条件确定单层递归逻辑具体代码 CPP 前序遍历 vector<int> res; void traversal(TreeNode *root){if(!root)return;res.push_back(root->val);traversal(root->left);traversal(root-…...

编程日记 2025/9/17 5:39:10

一文详解ffmpeg环境搭建：Ubuntu系统ffmpeg配置nvidia硬件加速

在Ubuntu系统下安装FFmpeg有多种方式，其中最常用的是通过apt-get命令和源码编译安装。本文将分别介绍这两种方式，并提供安装过程。一、apt-get安装使用apt-get命令安装FFmpeg是最简单快捷的方式，只需要在终端中输入以下命令即可： # 更新软件包列表 sudo apt-get updat…...

编程日记 2025/9/17 5:36:49

（四）深入理解AVFoundation-播放：高度自定义视频播放器 UI

引言在之前的博客中，我们已经介绍了如何实现一个简单的播放器，并通过监听资源和播放器的属性来提升播放体验。因此本篇博客将带你进一步自定义播放器 UI。通过构建自己的播放控制界面（如播放/暂停按钮、进度条、全屏切换等）&…...

编程日记 2025/9/17 5:36:49

sqli-labs靶场 less6

文章目录 sqli-labs靶场less 6 报错注入 sqli-labs靶场每道题都从以下模板讲解，并且每个步骤都有图片，清晰明了，便于复盘。 sql注入的基本步骤注入点注入类型字符型：判断闭合方式 （‘、"、’、“”&#xf…...

编程日记 2025/9/17 5:36:50

数据库架构全解析：MyCat、MHA、ProxySQL 的原理、功能与实例

前言 ： 在分布式数据库架构中，分库分表、高可用性（HA）和查询优化是核心需求。本文将深入解析三款主流工具：MyCat（分布式数据库中间件）、MHA（MySQL高可用方案）、ProxySQL…...

编程日记 2025/9/12 7:08:10

【hadoop】Hive数据仓库安装部署

一、MySQL的安装与配置换源： 最下面附加部分 1、在master上直接使用yum命令在线安装MySQL数据库： sudo yum install mysql-server 途中会询问是否继续，输入Y并按回车。 2、启动MySQL服务： sudo service mysqld start 3、设…...

编程日记 2025/9/11 15:35:08

Unity Addressables资源生命周期自动化监控技术详解

一、Addressables资源生命周期管理痛点 1. 常见资源泄漏场景泄漏类型典型表现检测难度隐式引用泄漏脚本持有AssetReference未释放高异步操作未处理AsyncOperationHandle未释放中循环依赖泄漏资源相互引用无法释放极高事件订阅泄漏未取消事件监听导致对象保留高 2. 传统管理…...

编程日记 2025/9/15 4:46:26

Linux网络编程——深入理解TCP的可靠性、滑动窗口、流量控制、拥塞控制

目录一、前言二、流量控制三、TCP的滑动窗口 1、原理 2、机制 3、数据重发 Ⅰ、只是确认应答包(ACK)丢了 Ⅱ、发送数据包丢失 4、缓冲区结构四、TCP的拥塞控制 1、慢启动 2、拥塞避免 3、快速重传 4、快速恢复五、延迟应答六、捎带应答七、再谈TCP的面…...

编程日记 2025/9/10 22:26:15

Manifold-IJ 2022.1.21 版本解析：IntelliJ IDEA 的 Java 增强插件指南

Manifold-IJ-2022.1.21 可能是 IntelliJ IDEA 的一个插件或相关版本，特别是与 Manifold 这个增强 Java 开发体验的框架相关的组件。很多时候没有网络环境，而又需要这个插件。 Manifold-IJ 2022.1.21下载：https://pan.quark.cn/s/ad907344c…...

编程日记 2025/9/10 0:46:27

linux内核

一初识linux内核 1.1操作系统和内核简介操作系统的精确定义并没有一个统一的标准，这里我认为操作系统是指整个系统负责完成最基本功能和系统管理的那些部分这些部分包括内核，设备驱动程序，启动引导程序，基本的文件管理工具和…...

编程日记 2025/9/12 3:24:21

基于CNN-LSTM-GRU的深度Q网络（Deep Q-Network，DQN）求解移动机器人路径规划，MATLAB代码

一、深度Q网络（Deep Q-Network，DQN）介绍 1、背景与动机深度Q网络（DQN）是深度强化学习领域的里程碑算法，由DeepMind于2013年提出。它首次在 Atari 2600 游戏上实现了超越人类的表现，解决了传统…...

编程日记 2025/9/10 4:22:24

C++23新特性：显式对象形参与显式对象成员函数

文章目录一、背景与动机二、语法与基本使用三、优势与应用场景（一）简化代码（二）提升模板编程灵活性（三）与Lambda表达式结合四、限制与注意事项五、总结 C23标准引入了一项重要的语言特性——显式对象形参…...

编程日记 2025/9/10 18:00:05

leetcode_242. 有效的字母异位词_java

242. 有效的字母异位词https://leetcode.cn/problems/valid-anagram/ 1、题目给定两个字符串 s 和 t ，编写一个函数来判断 t 是否是 s 的字母异位词（字母异位词是通过重新排列不同单词或短语的字母而形成的单词或短语，并使用所有原字母一次…...

编程日记 2025/9/11 19:42:24

【Docker基础】容器技术详解：生命周期、命令与实战案例

文章目录一、什么是容器？二、为什么需要容器三、容器的生命周期容器状态容器OOM容器异常退出容器异常退出容器暂停四、容器命令命令清单详细介绍五、容器操作案例容器的状态迁移容器批量操作容器交互模式attached 模式detached 模式interactive 模式容器与宿主…...

编程日记 2025/9/10 6:35:40

电子电气架构 --- 为配备区域计算的下一代电子/电气（E/E）架构

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧! 旧人不知我近况，新人不知我过…...

编程日记 2025/9/11 18:29:27

python基础：位置互换

n int(input()) for _ in range(n):line input().strip()line list(line)for i in range(1,len(line)1):if i%2 0:line[i-2], line[i-1] line[i-1],line[i-2] print(.join(line))以下分不同数据类型说明 Python 实现奇偶互换的方法： 字符串的奇偶位互换若字…...

编程日记 2025/9/12 13:28:03

51单片机Day03---让一个LED灯闪烁

目录 1.研究原理图： 2.一些小知识（重定义的使用）： （1）在单片机中，unsigned int 常用于以下场景： （2）unsigned char： 3.思路构造：…...

编程日记 2025/9/10 12:52:32

城电科技 | 从概念到落地：如何打造真正的智慧零碳园区？

在科技飞速发展的当下，智慧零碳园区成为了引领未来发展的重要范式。那么，究竟什么是智慧零碳园区呢？ 智慧零碳园区，是借助前沿信息技术，把物联网、云计算、大数据等技术深度融入园区管理及产业运营，以此达…...

编程日记 2025/9/14 1:05:39

oracle常见问题处理集锦

oracle常见问题处理集锦 oracle常见问题处理集锦ORA:28000 the count is locked oracle常见问题处理集锦 ORA:28000 the count is locked ORA-28000: 账户已被锁定这个错误表示你尝试登录的 Oracle 数据库用户账户已被锁定，常见原因包括： 多次密码输错…...

编程日记 2025/9/11 10:26:51

Java-JDBC入门程序、预编译SQL

一. JDBC JDBC：Java DataBase Connectivity 就是使用Java语言操作关系型数据库的一套API 本质：sun公司官方定义一套操作所有关系型数据库的规范，即接口；各个数据库厂商去实现这套接口，提供数据库驱动jar包。我们可以使…...

编程日记 2025/9/11 6:41:47

【SQL】基于多源SQL 去重方法对比 -- 精华版

【SQL】基于SQL 去重方法对比 -- 精华版一、引言二、基于SQL去重方法完整对比1. MySQL去重方法及优劣势1.1 DISTINCT关键字1.2 GROUP BY子句1.3 UNION系列操作1.4 子查询自关联 2. Hive去重方法及优劣势2.1 DISTINCT关键字2.2 GROUP BY子句2.3 ROW_NUMBER窗口函数2.4 …...

编程日记 2025/9/15 16:35:50

list的使用以及模拟实现

本章目标 1.list的使用 2.list的模拟实现 1.list的使用在stl中list是一个链表,并且是一个双向带头循环链表,这种结构的链表是最优结构. 因为它的实现上也是一块线性空间,它的使用上是与string和vector类似的.但相对的因为底层物理结构上它并不像vector是线性连续的,它并没有…...

编程日记 2025/9/16 15:17:12

java继承练习

//创建父类public class Employee {private String id;private String name;private double salary;public Employee() {}public Employee(String id, String name, double salary) {this.id id;this.name name;this.salary salary;}public String getId() {return id;}pu…...

编程日记 2025/9/15 4:27:41

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

Kosmos-G: Generating Images in Context with Multimodal Large Language Models

UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

Ferret: Refer and Ground Anything Anywhere at Any Granularity

相关文章：