当前位置: 首页 > news >正文

Virgo:增强慢思考推理能力的多模态大语言模型

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

人工智能研究正稳步迈向创建能够进行复杂推理的系统,多模态大语言模型(MLLMs)成为这一进程中的重要突破。MLLMs能够同时处理文本和视觉数据,在解决复杂问题(如数学题目或图表推理)方面展现出独特优势。这些模型通过弥合多种模态之间的差距,拓宽了AI的应用领域,为教育、科学和数据分析等领域带来了全新可能性。

然而,开发这些系统的主要挑战在于如何实现文本和视觉推理的无缝整合。传统的大语言模型通常擅长处理文本或图像,但在需要结合两者进行推理时往往表现不佳。这种局限性使得它们在多模态任务中的表现受到阻碍,尤其是在需要长期、深度思考(常称为“慢思考”)的场景中。解决这一问题是推动MLLMs向实用化迈进的重要一步。

目前,提升MLLM推理能力的策略主要集中在两个方向:一是利用结构化搜索方法(如蒙特卡洛树搜索),通过奖励模型引导优化推理路径;二是为LLMs提供长形式推理指令(通常以“思维链”形式呈现)进行训练。然而,这些方法大多专注于文本任务,对于多模态场景的探索相对有限。虽然一些商用系统(如OpenAI的o1模型)表现出潜力,但其专有性限制了相关研究的开放性,公共领域的探索因此出现了空白。

对此,中国人民大学、百川智能和北京智源人工智能研究院的研究人员联合推出了Virgo模型,这一模型专注于提升多模态背景下的慢思考推理能力。Virgo通过微调Qwen2-VL-72B-Instruct模型开发而成,采用了一种简单却创新的方式,即利用文本型长思考数据进行训练。这种方法将推理能力从文本领域迁移到多模态领域,成为Virgo区别于其他模型的重要特点。

突破性的训练方法
Virgo的开发过程中,研究团队精心构建了包含5000条长思考指令的数据集,涵盖数学、科学和编程领域。这些指令按照结构化的推理过程和最终解决方案进行格式化,以确保训练过程的清晰性和可复制性。研究人员在微调过程中,专注于LLM和跨模态连接器的参数优化,而未对视觉编码器进行调整,从而保留了模型原有的视觉处理能力,同时增强其推理表现。此外,他们还尝试了自蒸馏技术,让经过微调的模型生成视觉型长思考数据,进一步提升Virgo在多模态推理任务中的表现。

卓越的性能表现
Virgo在四个高难度基准测试中进行了评估,包括MathVerse、MathVision、OlympiadBench和MMMU。这些测试包含数千道多模态问题,用以验证模型在文本和视觉输入上的推理能力。结果显示,Virgo表现卓越,不仅超越了许多先进模型,还与一些商用系统相媲美。例如,在MathVision基准测试中,Virgo取得了38.8%的准确率,领先于大多数现有解决方案;在挑战性极高的OlympiadBench测试中,其表现较基础模型提升了12.4%。此外,研究还发现,相较于直接使用多模态训练数据,文本型长思考数据在推理能力的提取上表现更佳,这进一步证明了文本训练对多模态系统的潜在价值。

研究团队对Virgo的表现进行了难度分级分析,发现模型在需要深度推理的高难度任务中表现出持续改进,而在简单任务(如MMMU基准测试)中的提升相对有限。这一发现强调了为特定复杂任务量身定制推理系统的重要性。同时,研究结果还揭示,文本推理数据往往优于视觉推理指令,表明文本训练能够有效地将推理能力迁移到多模态领域。

推动AI多模态研究的未来
Virgo的成功展现了一种高效、实用的提升MLLM能力的方法,不仅填补了多模态推理领域的空白,还为未来研究提供了新的方向。通过利用长思考文本数据,研究人员为开发更高级的推理模型提供了可扩展的解决方案。随着进一步的优化和探索,这种方法有望推动多模态AI研究取得更大突破,为AI技术的实际应用开辟全新路径。

相关文章:

Virgo:增强慢思考推理能力的多模态大语言模型

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

城市生命线安全综合监管平台

【落地产品,有需要可留言联系,支持项目合作或源码合作】 一、建设背景 以关于城市安全的重要论述为建设纲要,聚焦城市安全重点领域,围绕燃气爆炸、城市内涝、地下管线交互风险、第三方施工破坏、供水爆管、桥梁坍塌、道路塌陷七…...

Linux:进程概念、进程状态、进程切换、进程调度、命令行参数、环境变量,进程地址空间

hello,各位小伙伴,本篇文章跟大家一起学习《Linux:进程》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 如果本篇文章对你有帮助,还请各位点点赞!!…...

Python教程丨Python环境搭建 (含IDE安装)——保姆级教程!

工欲善其事,必先利其器。 学习Python的第一步不要再加收藏夹了!提高执行力,先给自己装好Python。 1. Python 下载 1.1. 下载安装包 既然要下载Python,我们直接进入python官网下载即可 Python 官网:Welcome to Pyt…...

【ASP.NET学习】ASP.NET MVC基本编程

文章目录 ASP.NET MVCMVC 编程模式ASP.NET MVC - Internet 应用程序创建MVC web应用程序应用程序信息应用程序文件配置文件 用新建的ASP.NET MVC程序做一个简单计算器1. **修改视图文件**2. **修改控制器文件** 用新建的ASP.NET MVC程序做一个复杂计算器1.创建模型(…...

在线工具箱源码优化版

在线工具箱 前言效果图部分源码源码下载部署教程下期更新 前言 来自缤纷彩虹天地优化后的我爱工具网源码,百度基本全站收录,更能基本都比较全,个人使用或是建站都不错,挑过很多工具箱,这个比较简洁,非常实…...

网站自动签到

我研究生生涯面临两个问题,一是写毕业论文,二是找工作,这两者又有很大的冲突。怎么解决这两个冲突呢?把python学好是一个路子,因此从今天我要开一个专栏就是学python 其实我的本意不是网站签到,我喜欢在起点…...

python学opencv|读取图像(二十七)使用time()绘制弹球动画

【1】引言 前序已经学习了pythonopencv画线段、圆形、矩形、多边形和文字的相关操作,具体文章链接包括且不限于: python学opencv|读取图像(十八)使用cv2.line创造线段_cv2. 画线段-CSDN博客 python学opencv|读取图像&#xff0…...

物联网智能项目简述

物联网智能项目 一、物联网智能项目的定义 物联网智能项目是指基于物联网技术(IoT),结合人工智能(AI)、大数据、云计算等先进技术,开发出的具有智能化、自动化、远程监控等功能的项目。物联网&#xff08…...

el-table 合并单元格

参考文章&#xff1a;vue3.0 el-table 动态合并单元格 - flyComeOn - 博客园 <el-table :data"tableData" border empty-text"暂无数据" :header-cell-style"{ background: #f5f7fa }" class"parent-table" :span-method"obj…...

SQL语言的函数实现

SQL语言的函数实现 引言 随着大数据时代的到来&#xff0c;数据的存储和管理变得越来越复杂。SQL&#xff08;结构化查询语言&#xff09;作为关系数据库的标准语言&#xff0c;其重要性不言而喻。在SQL语言中&#xff0c;函数是一个重要的组成部分&#xff0c;可以有效地帮助…...

细说STM32F407单片机以DMA方式读写外部SRAM的方法

目录 一、工程配置 1、时钟、DEBUG、GPIO、CodeGenerator 2、USART3 3、NVIC 4、 FSMC 5、DMA 2 &#xff08;1&#xff09;创建MemToMem类型DMA流 &#xff08;2&#xff09;开启DMA流的中断 二、软件设计 1、KEYLED 2、fsmc.h、fsmc.c、dma.h、dma.c 3、main.h…...

Vue 3前端与Python(Django)后端接口简单示例

项目 后端&#xff08;Django&#xff09;前端&#xff08;Vue 3&#xff09; 后端&#xff08;Django&#xff09; 创建Django项目和应用&#xff1a; 确保你已经安装了Django。如果没有安装&#xff0c;可以使用以下命令安装&#xff1a; pip install django创建一个新的Dja…...

前端多语言

前端多语言目前常用i18n实现 一、react 1.安装依赖 npm install react-i18next i18next --save2.创建配置文件 src/i18n config.ts&#xff1a;对 i18n 进行初始化操作及插件配置 en.json&#xff1a;英文语言配置文件 zh.json&#xff1a;中文语言配置文件 config.ts im…...

单片机-直流电机实验

1、ULN2003芯片介绍 ULN2003&#xff0c; 该芯片是一个单片高电压、高电流的达林顿晶体管阵列集成电路。不仅可以用来 驱动直流电机&#xff0c;还可用来驱动五线四相步进电机。支持驱动大功率电器 因为 ULN2003 的输出是集电极开路&#xff0c;ULN2003 要输出高电平&#xff0…...

【Word_笔记】Word的修订模式内容改为颜色标记

需求如下&#xff1a;请把修改后的部分直接在原文标出来&#xff0c;不要采用修订模式 步骤1&#xff1a;打开需要转换的word后&#xff0c;同时按住alt和F11 进入&#xff08;Microsoft Visual Basic for Appliations&#xff09; 步骤2&#xff1a;插入 ---- 模块 步骤3&…...

计算机网络之---子网划分与IP地址

子网划分与IP地址的关系 在计算机网络中&#xff0c;子网划分&#xff08;Subnetworking&#xff09;是将一个网络划分为多个子网络的过程。通过子网划分&#xff0c;可以有效地管理和利用IP地址空间&#xff0c;提高网络的性能、安全性和管理效率。 子网划分的基本目的是通过…...

【LeetCode Hot100 贪心算法】 买卖股票的最佳时机、跳跃游戏、划分字母区间

贪心算法 买卖股票的最佳时机买卖股票的最佳时机II跳跃游戏跳跃游戏II划分字母区间 买卖股票的最佳时机 给定一个数组 prices &#xff0c;它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票&#xff0c;并选择在 未来的某一个不同的…...

[ 第36次CCFCSP]梦境巡查

题目背景 传说每当月光遍布西西艾弗岛&#xff0c;总有一道身影默默守护着居民们的美梦。 题目描述 梦境中的西西艾弗岛由 n1 个区域组成。梦境巡查员顿顿每天都会从梦之源&#xff08;0 号区域&#xff09;出发&#xff0c;顺次巡查 1,2,⋯ ,n 号区域&#xff0c;最后从 n…...

使用PVE快速创建虚拟机集群并搭建docker环境

安装Linux系统 这里以安装龙蜥操作系统AnolisOS8.9为例加以说明。 通过PVE后台上传操作系统ISO镜像。 然后在PVE上【创建虚拟机】&#xff0c;选定上传的龙蜥操作系统镜像进行系统安装。 注意&#xff1a;在安装过程中&#xff0c;要设定语言、时区、超管用户root的密码、普…...

模型 断裂点理论(风险控制)

系列文章 分享模型&#xff0c;了解更多&#x1f449; 模型_思维模型目录。设置小损失&#xff0c;防止大风险。 1 断裂点理论的应用 1.1 电路系统中的保险丝应用 背景介绍&#xff1a; 在工程学中&#xff0c;电路系统是现代科技中不可或缺的一部分&#xff0c;广泛应用于各…...

机器学习之贝叶斯分类器和混淆矩阵可视化

贝叶斯分类器 目录 贝叶斯分类器1 贝叶斯分类器1.1 概念1.2算法理解1.3 算法导入1.4 函数 2 混淆矩阵可视化2.1 概念2.2 理解2.3 函数导入2.4 函数及参数2.5 绘制函数 3 实际预测3.1 数据及理解3.2 代码测试 1 贝叶斯分类器 1.1 概念 贝叶斯分类器是基于贝叶斯定理构建的分类…...

nginx http反向代理

系统&#xff1a;Ubuntu_24.0.4 1、安装nginx sudo apt-get update sudo apt-get install nginx sudo systemctl start nginx 2、配置nginx.conf文件 /etc/nginx/nginx.conf&#xff0c;但可以在 /etc/nginx/sites-available/ 目录下创建一个新的配置文件&#xff0c;并在…...

【Python运维】利用Python实现高效的持续集成与部署(CI/CD)流程

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 持续集成与部署(CI/CD)是现代软件开发中不可或缺的实践,通过自动化测试、构建和部署流程,显著提高了开发效率与运维质量。本文详细介绍…...

markdown存储到faiss向量数据库

目录 一、faiss接收的数据接口二、Markdown文件切分并处理为document列表1.markdown分割器2.文本分割器3.添加文件名 三、整体流程源代码 一、faiss接收的数据接口 add_docunments接收的documents是一个document对象的列表。 Document 对象的列表&#xff08;List of Document…...

开源cJson用法

cJSON cJSON是一个使用C语言编写的JSON数据解析器&#xff0c;具有超轻便&#xff0c;可移植&#xff0c;单文件的特点&#xff0c;使用MIT开源协议。 cJSON项目托管在Github上&#xff0c;仓库地址如下&#xff1a; https://github.com/DaveGamble/cJSON 使用Git命令将其拉…...

SSL,TLS协议分析

写在前面 工作中总是会接触到https协议&#xff0c;也知道其使用了ssl&#xff0c;tls协议。但对其细节并不是十分的清楚。所以&#xff0c;就希望通过这篇文章让自己和读者朋友们都能对这方面知识有更清晰的理解。 1&#xff1a;tls/ssl协议的工作原理 1.1&#xff1a;设计的…...

华为路由器、交换机、AC、新版本开局远程登录那些坑(Telnet、SSH/HTTP避坑指南)

关于华为设备远程登录配置开启的通用习惯1、HTTP/HTTPS相关服务 http secure-server enablehttp server enable 2、Telnet服务telnet server enable3、SSH服务stelnet server enablessh user admin authentication-type password 「模拟器、工具合集」复制整段内容 链接&…...

Redis的数据结构(基本)

安装完成后&#xff0c;在任意目录输入redis-server命令即可启动Redis&#xff1a; redis-server 我们可以进入redis命令行窗口 Redis安装完成后就自带了命令行客户端&#xff1a;redis-cli&#xff0c;使用方式如下&#xff1a; redis-cli [options] [commonds] 其中常见…...

分布式锁 Redis vs etcd

为什么要实现分布式锁?为什么需要分布式锁,分布式锁的作用是什么,哪些场景会使用到分布式锁?分布式锁的实现方式有哪些分布式锁的核心原理是什么 如何实现分布式锁redis(自旋锁版本)etcd 的分布式锁(互斥锁(信号控制)版本) 分布式锁对比redis vs etcd 总结 为什么要实现分布式…...

docker中jenkins流水线式部署GitLab中springboot项目

本质就是将java项目拉取下来&#xff0c;并自动打包成docker镜像&#xff0c;运行 首先启动一个docker的jenkins 如果没有镜像使用我的镜像 通过网盘分享的文件&#xff1a;jenkins.tar 链接: https://pan.baidu.com/s/1VJOMf6RSIQbvW_V1zFD7eQ?pwd6666 提取码: 6666 放入服…...

甘蔗叶片图像元素含量的回归预测多模型实现【含私人数据集】

完整源码项目包获取→点击文章末尾名片&#xff01; 基于python的小样本学习&#xff0c;完成对甘蔗叶片图像元素含量的回归预测 数据集这边我提供&#xff0c;包含91个样本&#xff0c;共182个图像&#xff0c;要求全部数据集保密&#xff0c;不能对外公开或泄露&#xff1b;…...

uniapp:钉钉小程序需要录音权限及调用录音

{// ... 其他配置项"mp-dingtalk": {"permission": {"scope.userLocation" : {"desc" : "系统希望获得您的定位用于确认您周围的设施数据"},"scope.bluetooth" : {"desc" : "你的蓝牙权限将用于小…...

Qt仿音乐播放器:媒体类

一、铺垫 我暂时只会音频系列的操作&#xff0c;我只能演示音频部分&#xff1b;但是QMediaPlayer是一个可以播放视频、音频的类&#xff1b;请同学们细读官方文档&#xff1b; 二、头文件 #include<QMediaPlayer> 头文件 #include<QMediaPlaylist> 三、演…...

Flink-CDC 全面解析

Flink-CDC 全面解析 一、CDC 概述 &#xff08;一&#xff09;什么是 CDC CDC 即 Change Data Capture&#xff08;变更数据获取&#xff09;&#xff0c;其核心要义在于严密监测并精准捕获数据库内发生的各种变动情况&#xff0c;像数据的插入、更新以及删除操作&#xff0…...

HarmonyOS中实现上拉加载下拉刷新

参考网址&#xff1a;Refresh-滚动与滑动-ArkTS组件-ArkUI&#xff08;方舟UI框架&#xff09;-应用框架 - 华为HarmonyOS开发者 1.数据基类 //根据自己的业务数据扩展此类 //注意&#xff1a;一定要继承Object export class PullToRefreshBean extends Object{name: string …...

【轻松学C:编程小白的大冒险】--- C语言简介 02

在编程的艺术世界里&#xff0c;代码和灵感需要寻找到最佳的交融点&#xff0c;才能打造出令人为之惊叹的作品。而在这座秋知叶i博客的殿堂里&#xff0c;我们将共同追寻这种完美结合&#xff0c;为未来的世界留下属于我们的独特印记。 【轻松学C&#xff1a;编程小白的大冒险】…...

MySQL安装,配置教程

一、Linux在线yum仓库安装 打开MySQL官方首页&#xff0c;链接为&#xff1a;https://www.mysql.com/ 界面如下&#xff1a; 在该页面中找到【DOWNOADS】选项卡&#xff0c;点击进入下载页面。 在下载界面中&#xff0c;可以看到不同版本的下载链接&#xff0c;这里选择【My…...

项目实战——使用python脚本完成指定OTA或者其他功能的自动化断电上电测试

前言 在嵌入式设备的OTA场景测试和其他断电上电测试过程中&#xff0c;有的场景发生在夜晚或者随时可能发生&#xff0c;这个时候不可能24h人工盯着&#xff0c;需要自动化抓取串口日志处罚断电上电操作。 下面的python脚本可以实现自动抓取串口指定关键词&#xff0c;然后触发…...

多活架构的实现原理与应用场景解析

一、多活架构为何如此重要? 企业的业务运营与各类线上服务紧密相连,从日常的购物消费、社交娱乐,到金融交易、在线教育等关键领域,无一不依赖于稳定可靠的信息系统。多活架构的重要性愈发凸显,它宛如一位忠诚的卫士,为业务的平稳运行保驾护航。 回想那些因系统故障引发的…...

01-springclound

OpenFeign OpenFeign的日志级别 GateWay GateWay自定义过滤器 自定义过滤器&#xff0c;实现Order接口 数字小的先执行 GateWay传递用户信息 1、需要在网关搞定登录校验&#xff0c;将用户信息保存到请求头 2、网关到微服务 通过 springmvc的拦截器 来处理&#xff0c;将用户…...

Pandas-RFM会员价值度模型

文章目录 一. 会员价值度模型介绍二. RFM计算与显示1. 背景2. 技术点3. 数据4. 代码① 导入模块② 读取数据③ 数据预处理Ⅰ. 数据清洗, 即: 删除缺失值, 去掉异常值.Ⅱ. 查看清洗后的数据Ⅲ. 把前四年的数据, 拼接到一起 ④ 计算RFM的原始值⑤ 确定RFM划分区间⑥ RFM计算过程⑦…...

Java基础知识面试题

1.Java语言的特点&#xff1f; 1.一面向对象&#xff08;封装&#xff0c;继承&#xff0c;多态&#xff09;&#xff1b; 2.平台无关性&#xff08; Java 虚拟机实现平台无关性&#xff09;&#xff1b;(类是一种定义对象的蓝图或模板)3.支持多线程&#xff08; C 语言没有内…...

WebSocket监听接口

在Vue.js中使用WebSocket来监听接口其实相对简单。WebSocket是一种在单个TCP连接上进行全双工通信的协议&#xff0c;通常用于需要实时数据更新的场景&#xff0c;比如聊天应用、实时通知等。 以下是一个在Vue.js中使用WebSocket的示例&#xff1a; 1. 创建Vue项目 如果你还…...

Kotlin语言的编程范式

Kotlin语言的编程范式 Kotlin是一种现代的编程语言&#xff0c;旨在提高开发效率&#xff0c;减少代码复杂度。在过去几年中&#xff0c;Kotlin在Android开发中获得了极大的普及&#xff0c;同时也逐渐被用在服务器端、Web开发、数据科学等多个领域。本文将深入探讨Kotlin的编…...

【权限管理】Apache Shiro学习教程

Apache Shiro 是一个功能强大且灵活的安全框架&#xff0c;主要用于身份认证&#xff08;Authentication&#xff09;、授权&#xff08;Authorization&#xff09;、会话管理&#xff08;Session Management&#xff09;和加密&#xff08;Cryptography&#xff09;。它旨在为…...

网络安全 信息收集入门

1.信息收集定义 信息收集是指收集有关目标应用程序和系统的相关信息。这些信息可以帮助攻击者了解目标系统的架构、技术实现细节、运行环境、网络拓扑结构、安全措施等方面的信息&#xff0c;以便我们在后续的渗透过程更好的进行。 2.收集方式-主动和被动收集 ①收集方式不同…...

Java Web开发进阶——RESTful API设计与开发

随着分布式系统和微服务架构的流行&#xff0c;RESTful API已成为现代Web应用中后端与前端、第三方系统交互的重要方式。本节将深入探讨RESTful API的设计原则、实现方式以及如何使用Spring Boot开发高效、可靠的RESTful服务。 1. 理解RESTful API的设计原则 1.1 什么是RESTfu…...

图片已经在windows上旋转了,但是在linux上仍然显示不正常

公司接了一个linux产品的售后工作&#xff0c;我们现在的产品都是android。linux设备如果要播放竖屏的图片在linux主板上。需要将图片旋转下才能正常播放。 我拿到图片以后&#xff0c;就用window图片编辑器打开了图片如下图左。选择逆时针选择了90 然后另存图片为如下图右。 …...

关于大数据的基础知识(二)——国内大数据产业链分布结构

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///计算机爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于大数据的基础知识&#xff08;二&a…...