InternVideo2.5:Empowering Video MLLMs with Long and Rich Context Modeling
一、TL;DR
- InternVideo2.5通过LRC建模来提升MLLM的性能。
- 层次化token压缩和任务偏好优化(mask+时空 head)整合到一个框架中,并通过自适应层次化token压缩来开发紧凑的时空表征
- MVBench/Perception Test/EgoSchema/MLVU数据benchmark上提升明显
二、介绍
MLLM的问题点:
MLLM在基本视觉相关任务上的表现仍不如人类,这限制了其理解和推理能力。它们在识别、定位和回忆常见场景中的物体、场景和动作时表现不佳。
本文如何解决:
研究多模态上下文的长度和细粒度如何影响MLLM以视觉为中心的能力和性能,而不是专注于通过scaling law直接扩展MLLM。
取得了什么结果:
具体而言,本文的贡献在于:
-
首次全面研究了如何实现长且丰富的上下文(Long and Rich Context,LRC),以提升MLLM的记忆和专注能力。
-
通过将层次化token压缩(Hierarchical Token Compression,HiCo)和任务偏好优化(Task Preference Optimization,TPO)整合到一个框架中
-
-
InternVideo2.5能够显著提升现有MLLM在视频理解方面的表现,并赋予它们专家级的视觉感知能力。
-
在多个短视频和长视频基准测试中取得了领先的性能。InternVideo2.5的视频记忆容量使其能够保留至少比原始版本长6倍的输入。
-
三、方法
InternVideo2.5通过增强MLLM的上下文长度和细粒度来获得长且准确的视频理解,采用了视频长度自适应的标记表示和任务偏好优化,如图2所示。整个模型通过三个阶段进行学习,利用了短视频、长视频以及经典视觉任务数据。整个方法详细描述如下。
说人话:在前面的clip encoder时使用Tome做token压缩,在浅层使用TDrop进行token prune做算力压缩,深层使用注意力机制提取关键token,然后增加了一个mask Head和时间理解的head用于理解上下文和视觉细节(任务偏好优化),最后面接生成出结果
3.1 视频长度自适应标记表示用于长多模态上下文
引入了一种实用的长度自适应token representation方法,能够高效地处理任意长度的视频序列。在动态帧采样之后,给定的流程实现了具有两个不同阶段的层次化标记压缩(HiCo):
- 视觉编码过程中的时空感知压缩
- 语言模型处理过程中的自适应多模态上下文整合。
自适应时间采样:实现了一种根据视频时长和内容特征进行调整的上下文感知采样机制。
- 对于运动粒度至关重要的较短序列,我们采用密集时间采样(每秒15帧)。
- 对于专注于事件级别理解的长序列(例如分钟/小时级别的视频),我们使用稀疏采样(每秒1帧)。
- 这种自适应方法确保了在不同时间尺度上都能正确捕捉运动。
分层token压缩:我们通过事件中的时空冗余和事件之间的语义冗余来压缩长视觉信号。
-
时空token合并:通过层次化压缩方案解决时空冗余问题,通过语义相似性进行令牌合并,保留视频中的关键信息:
-
给定一个被划分为T个时间片段的视频序列,每个片段由视觉编码器E处理以生成M个初始标记:vji(i=1,2,...,M)用于第j个片段。这些标记通过标记连接器C进行自适应压缩,产生N个压缩后的标记sji(i=1,2,...,N),其中N < M
-
通过语义相似性进行令牌合并,保留视频中的关键信息。实验表明,基于语义相似性的令牌合并方法(如ToMe)在视觉压缩中表现出色,能够在保留细节的同时显著减少计算开销。
-
多模态token丢弃:我们引入了在语言模型处理过程中运行的标记丢弃,以进一步优化长距离视觉理解。它实现了两阶段标记减少策略:
-
浅层中进行均匀token prune,以保持结构完整性,同时减少计算开销;
-
深层中进行注意力引导的token选择,以保留与任务的关键信息。
-
3.2 通过任务偏好优化增强多模态上下文中的视觉精度
为了增强多模态语言模型(MLLMs)在细粒度视觉任务中的表现,我们引入了多任务偏好学习(MPL)。该方法通过将专门的视觉感知模块与基础MLLM架构集成,实现了精确的定位和时间理解等能力。
-
时间理解:为了处理动态视觉内容,我们开发了一个时间组件,结合视频特征提取和时间对齐能力。该组件能够预测精确的时间边界和相关分数,从而帮助模型更好地理解视频中的时间关系。
-
实例分割:为了实现像素级理解和实例级区分,我们设计了一个分割模块,基于最新的分割基础模型(如SAM2)。该模块通过自适应投影层将MLLM的嵌入与像素级预测连接起来,从而实现了对视频中目标的精确分割。
模型通过联合优化视觉感知模块和基础MLLM,实现了对细粒度视觉任务的精确处理。
3.3 多模态上下文建模的训练视频语料库
训练过程分为三个阶段,分别使用了视觉-文本对齐数据、长视频数据和特定任务的视觉数据。训练数据如表1所示。
-
视觉-文本数据用于跨模态对齐:我们收集了包含700万图像-文本对和370万视频-文本对的视觉-文本数据,以及14.3万用于增强语言能力的文本数据。
-
长视频语料库用于上下文扩展:我们主要使用了来自MoiveChat、Cineplie、Vript和LongVid的长视频指令数据。
-
特定任务的数据用于精确感知:包括用于指代分割任务的MeViS和SAMv2,用于空间定位的AS-V2、Visual Genome、RefCOCO等。
3.4 逐步多阶段训练
我们提出了一个统一的逐步训练方案,共同增强MLLM的细粒度感知和时间理解能力。该方法包括三个主要阶段,逐步增加任务的复杂性和视频输入的时间长度。
-
阶段1:基础学习:该阶段专注于两个并行目标:(a)使用多样化的对话模板对LLM进行任务识别指令调整,使模型能够识别和路由不同的视觉任务;(b)视频-语言对齐训练,其中我们冻结视觉编码器和LLM,同时优化压缩器和MLP以建立基本的视觉-语言连接。
-
阶段2:细粒度感知训练:该阶段通过(a)使用特定任务的数据集集成和训练特定任务的组件,包括任务标记、区域头、时间头和掩码适配器;以及(b)使用350万图像和250万短视频-文本对进行视觉概念预训练来增强模型的视觉理解能力。
-
阶段3:集成准确和长形式上下文训练:最后阶段通过(a)在结合多模态对话和特定任务数据的混合语料库上进行多任务训练,允许任务监督梯度从专门头流向MLLM;以及(b)在包含350万样本的综合数据集上进行指令调整,包括110万图像、170万短视频(<60秒)和70万长视频(60-3600秒)。
这种逐步训练策略使模型能够在发展细粒度感知和长形式视频理解的同时,减少对通用能力的潜在退化。与依赖长文本扩展上下文窗口的先前方法不同,我们直接在长视频上进行训练,以最小化训练和部署场景之间的差距。
3.5 实现
-
分布式系统:基于XTuner开发了一个多模态序列并行系统,用于训练和测试数百万个多模态标记(主要是视觉)。通过整合序列和张量分布式处理以及多模态动态(软)数据打包,我们实现了长视频的可扩展计算。
-
模型配置:在我们的多模态架构中,我们使用了一个结合先进视频处理和语言建模能力的综合框架。该系统实现了动态视频采样,处理64-512帧,每个8帧剪辑压缩为128个标记,产生大约每帧16个标记的表示
四、实验结果
在MVBench和Perception Test上,InternVideo2.5分别提升了3.7分和6.7分。在长视频理解方面,InternVideo2.5在EgoSchema和MLVU上的提升尤为明显,分别提升了12.4分和3.9分
视频理解效果好,尤其是细节:
在特定任务上也表现出色:
相关文章:
InternVideo2.5:Empowering Video MLLMs with Long and Rich Context Modeling
一、TL;DR InternVideo2.5通过LRC建模来提升MLLM的性能。层次化token压缩和任务偏好优化(mask时空 head)整合到一个框架中,并通过自适应层次化token压缩来开发紧凑的时空表征MVBench/Perception Test/EgoSchema/MLVU数据benchmar…...
OSPF基础与特性
一.OSPF 的技术背景 OSPF出现是因为RIP协议无法满足大型网络的配置 RIP协议中存在的问题 RIP中存在最大跳数为15的限制,不能适应大规模组网 RIP周期性发送全部路由信息,占用大量的带宽资源 路由收敛速度慢 以跳数作为度量衡,选路可能会不优 存在路由环路的可能性 每隔30秒更新…...
[Linux]从零开始的ARM Linux交叉编译与.so文件链接教程
一、前言 最近在项目需要将C版本的opencv集成到原本的代码中从而进行一些简单的图像处理。但是在这其中遇到了一些问题,首先就是原本的opencv我们需要在x86的架构上进行编译然后将其集成到我们的项目中,这里我们到底应该将opencv编译为x86架构的还是编译…...
golang 中 make 和 new 的区别?
在Go语言中,make 和 new 都是用于内存分配的关键字,但它们在使用场景、返回值和初始化方式等方面存在一些区别,以下是具体分析: 使用场景 make 只能用于创建 map、slice 和 channel 这三种引用类型,用于初始化这些类型…...
碧螺春是绿茶还是红茶
碧螺春是绿茶,不是红茶。 碧螺春的特点: 类别: 碧螺春属于中国六大茶类中的绿茶类。产地: 它产自中国江苏省苏州市太湖的东山和西山(现称金庭镇),是中国十大名茶之一。外形: 碧螺春茶叶外形卷曲如螺,色泽…...
Linux平台搭建MQTT测试环境
Paho MQTT Paho MQTT 是 Eclipse 基金会下的一个开源项目,旨在为多种编程语言提供 MQTT 协议的客户端实现。MQTT(Message Queuing Telemetry Transport)是一种轻量级的发布/订阅(Pub/Sub)消息传输协议ÿ…...
【AI学习】AI Agent(人工智能体)
1,AI agent 1)定义 是一种能够感知环境、基于所感知到的信息进行推理和决策,并通过执行相应动作来影响环境、进而实现特定目标的智能实体。 它整合了多种人工智能技术,具备自主学习、自主行动以及与外界交互的能力,旨…...
克魔助手(Kemob)安装与注册完整教程 - Windows/macOS双平台指南
iOS设备管理工具克魔助手便携版使用全指南 前言:为什么需要专业的iOS管理工具 在iOS开发和设备管理过程中,开发者经常需要突破系统限制,实现更深层次的控制和调试。本文将详细介绍一款实用的便携式工具的使用方法,帮助开发者快速…...
了解GPIO对应的主要功能
GPIO GPIO是通用输入输出端口的简称,芯片上的GPIO引脚与外部设备连接实现通讯、控制以及数据采集等功能,最基本的输出功能是通过控制引脚输出高低电平继而实现开关控制,比如引脚接入LED灯可控制LED灯的亮灭,接入继电器或三极管可…...
Dubbo 注册中心与服务发现
注册中心与服务发现 注册中心概述 注册中心是dubbo服务治理的核心组件,Dubbo依赖注册中心的协调实现服务发现,自动化的服务发现是微服务实现动态扩容、负载均衡、流量治理的基础。 Dubbo的服务发现机制经历了Dubbo2时代的接口级服务发现、Dubbo3时代的…...
一文详解LibTorch环境搭建:Ubuntu20.4配置LibTorch CUDA与cuDNN开发环境
随着深度学习技术的迅猛发展,越来越多的应用程序开始集成深度学习模型以提供智能化服务。为了满足这一需求,开发者们不仅依赖于Python等高级编程语言提供的便捷框架,也开始探索如何将这些模型与C应用程序相结合,以便在性能关键型应…...
micro ubuntu 安装教程
micro ubuntu 安装教程 官网地址 : https://micro-editor.github.io 以下是在 Ubuntu 系统中安装 micro 编辑器 的详细教程: 方法 1:通过 apt 直接安装(推荐) 适用于 Ubuntu 20.04 及以上版本(官方仓库已收录…...
观成科技:利用DoH加密信道的C2流量分析
概述 DoH(DNS over HTTPS)是一种通过HTTPS协议加密传输DNS查询的信道,将DNS请求封装在HTTP/2或HTTP/3中,DoH没有标准端口,部分服务沿用TLS的443端口。传统DNS明文传输易被拦截或篡改,而DoH通过加密提升了隐…...
行星际空间的磁流体动力激波:理论综述
Magnetohydrodynamic Shocks in the Interplanetary Space: a Theoretical Review ( Part 2 ) Magnetohydrodynamic Shocks in the Interplanetary Space: a Theoretical Review | Brazilian Journal of Physics Magnetohydrodynamic Shocks 1. The Rankine-Hu…...
Java垃圾回收的隐性杀手:过早晋升的识别与优化实战
目录 一、现象与症状 二、过早晋升的成因 (一)Young区(Eden区)配置过小 (二)分配速率过高 (三)晋升年龄阈值(MaxTenuringThreshold)配置不当 三、动态晋…...
2noise团队开源ChatTTS,支持多语言、流式合成、语音的情感、停顿和语调控制
简介 ChatTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 2noise 团队开发,专门为对话场景设计。它在 GitHub 上广受欢迎,因其自然流畅的语音合成能力和多功能性而备受关注。 项目背景 目标:设计…...
企业级防火墙与NAT网关配置
实训背景 某公司需部署一台Linux网关服务器,要求实现以下功能: 基础防火墙:仅允许SSH(22)、HTTP(80)、HTTPS(443)入站,拒绝其他所有流量。共享上网…...
AI数据分析的正道是AI+BI,而不是ChatBI
一、AI大模型在数据分析中的应用现状与局限 当前用户直接上传PDF、Excel等原始数据至AI大模型进行自动分析的趋势显著,但其技术成熟度与落地效果仍需审慎评估。 1.主流AI大模型的数据分析能力对比 GPT-4/Claude 3系列:在通用数据分析任务中表现突出&a…...
C++设计模式优化实战:提升项目性能与效率
🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,拥有高级工程师证书;擅长C/C、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle…...
G1学习打卡
🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 import argparse import os import numpy as np import torchvision.transforms as transforms from torchvision.utils import save_image from torch.utils.…...
8.2 对话框2
版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的 8.2.3 FolderBrowserDialog(文件夹对话框) 组件 FolderBrowserDialog组件,用于选择文件夹 Folder…...
Java中的列表(List):操作与实现详解
引言 列表(List)是Java集合框架中最基础且使用最频繁的线性数据结构。它允许有序存储元素,支持重复值和快速访问。本文将深入探讨Java列表的核心操作方法,并剖析两种经典实现类(ArrayList和LinkedList)的底…...
在kotlin的安卓项目中使用dagger
在 Kotlin 的 Android 项目中使用 Dagger(特别是 Dagger Hilt,官方推荐的简化版)进行依赖注入(DI)可以大幅提升代码的可测试性和模块化程度。 1. 配置 Dagger Hilt 1.1 添加依赖 在 bu…...
MongoDB常见面试题总结(上)
MongoDB 基础 MongoDB 是什么? MongoDB 是一个基于 分布式文件存储 的开源 NoSQL 数据库系统,由 C 编写的。MongoDB 提供了 面向文档 的存储方式,操作起来比较简单和容易,支持“无模式”的数据建模,可以存储比较复杂…...
leetcode6.Z字形变换
题目说是z字形变化,但其实模拟更像n字形变化,找到字符下标规律就逐个拼接就能得到答案 class Solution {public String convert(String s, int numRows) {if(numRows1)return s;StringBuilder stringBuilder new StringBuilder();for (int i 0; i <…...
VSCode中选择Anaconda的Python环境
1、安装Anaconda 2、安装VSCode 一、创建创建新的 Conda 环境 conda create --name myenv python3.8 conda activate myenv 二、在 VSCode 中配置 Conda 环境 1、打开 VSCode,安装 Python 插件。 2、按 CtrlShiftP 打开命令面板,输入并选择 Pytho…...
【基于规则】基于距离的相似性度量
基于点:设时两条序曲线分别为X,Y,在曲线上选取点Xx和Yy,计算点之间的距离,用来度量两条曲线的相似性。这类算法的精确度取决于选点的规则,以及距离的计算方式 欧几里得距离:不允许时间偏移,直接计算两个时序数据点之间的距离,适用于长度相同的序列 dtw:优化了选点的方…...
Python 序列构成的数组(当列表不是首选时)
当列表不是首选时 虽然列表既灵活又简单,但面对各类需求时,我们可能会有更好的选 择。比如,要存放 1000 万个浮点数的话,数组(array)的效率要高 得多,因为数组在背后存的并不是 float 对象&…...
LeetCode零钱兑换(动态规划)
题目描述 给你一个整数数组 coins ,表示不同面额的硬币;以及一个整数 amount ,表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额,返回 -1 。 你可以认为每种硬币的数量是无…...
vscode+wsl 运行编译 c++
linux 的 windows 子系统(wsl)是 windows 的一项功能,可以安装 Linux 的发行版,例如(Ubuntu,Kali,Arch Linux)等,从而可以直接在 windows 下使用 Linux 应用程序…...
C++学习之libevent ②
目录 1.连接服务器函数bufferevent_socket_connect() 2.bufferevent缓冲区的读写函数bufferevent_write() bufferevent_read() 3.给bufferevent设置回调函数bufferevent_setcb() 4.bufferevent回调函数的函数原型 5.基于bufferevent的套接字客户端处…...
彩色路径 第32次CCF-CSP计算机软件能力认证
应该用dp做的但是我太懒懒得看题解了 留到考试的时候看 超时20分代码: #include<bits/stdc.h> using namespace std; int N, M, L, K; struct Edge {int to, length;Edge(int to, int length) :to(to), length(length) {} }; vector<int> color;//颜色…...
第1章 绪论
自1946年,第一台计算机问世以来,计算机产业飞速发展。为了编写出一个好得程序,必须分析待处理的对象的特征以及各处理对象之间存在的关系。这就是数据结构这门学科形成和发展的背景。 1.1什么是数据结构 数据结构是计算机科学中组织和存储数…...
SpringCloud微服务(一)Eureka+Nacos
一、认识 微服务技术对比: SpringCloud: 版本匹配: 二、服务拆分以及远程调用 消费者与提供者: Eureka: 搭建EurekaServer: Ribbon负载均衡: 实现原理: IRule:规则接口…...
Python 字典和集合(子类化UserDict)
本章内容的大纲如下: 常见的字典方法 如何处理查找不到的键 标准库中 dict 类型的变种set 和 frozenset 类型 散列表的工作原理 散列表带来的潜在影响(什么样的数据类型可作为键、不可预知的 顺序,等等) 子类化UserDict 就创造自…...
时区转换工具+PWA离线网页
时区转换工具PWA离线网页 一、时区转换工具对比 工具说明Date原生 JS API,有限的时区支持,无法指定时区,仅使用本地时区。Intl.DateTimeFormat原生格式化显示,可指定时区,但不能修改时区逻辑。luxon强烈推荐…...
Hadoop序列化与反序列化具体实践
首先创建两个类 两个类的代码 Student类: import org.apache.hadoop.io.Writable;import java.io.DataInput; import java.io.DataOutput; import java.io.IOException;public class Student implements Writable {public Student(String name, int age) {this.n…...
Github AI开发者生态最新动态今日速览(20250408)
以下是截至2025年4月8日的GitHub AI开发者生态最新动态速览,结合技术更新、工具发布及行业趋势: 1. GitHub Copilot 重大升级与生态扩展 Agent Mode全量发布:Copilot在VS Code中启用Agent模式,可自主完成多文件代码重构、测试驱动…...
通过扣子平台将数据写入飞书多维表格
目录 1.1 创建飞书开放平台应用 1.2 创建飞书多维表格 1.3 创建扣子平台插件 1.1 创建飞书开放平台应用 1.1.1 打开地址:飞书开放平台,点击创建应用 注:商店应用需要申请ISV资质,填写企业主体信息,个人的话&#x…...
WEB安全--内网渗透--Kerberos之AS_REQAS_REP
一、前言 之前的文章提到过,在内网的域环境中,服务器之间默认使用的是Kerberos协议。 光了解NTLM协议是远远不够的,为了内网渗透,我后面将详细介绍Kerberos协议的原理以及漏洞的利用。 二、Kerberos协议 Kerberos是一种网络身份…...
【Hadoop入门】Hadoop生态之MapReduce简介
1 MapReduce核心原理 MapReduce是一种分布式计算框架,专为处理大规模数据集设计。其核心理念是将复杂计算任务分解为两个核心阶段: Map阶段:将输入数据分割为独立片段,并行处理生成中间键值对Reduce阶段:对Map阶段输出…...
使用Scrapy编写图像下载程序示例
最近闲来无事想要用Scrapy库来编写一个图像下载程序。首先,我得回忆一下Scrapy的基本结构。Scrapy是一个强大的爬虫框架,适合用来抓取网页数据,包括图片。不过,用户可能不太熟悉Scrapy的具体用法,特别是图片下载的部分…...
Linux/树莓派网络配置、远程登录与图形界面访问实验
一.准备工作 1.修改网络适配器(选择本机网卡) 2.创建一个新的用户。 3.使用新用户登录,使用ip a指令查看IP(现代 Linux 发行版(如 Ubuntu、Debian、CentOS、Fedora 等))。 通过sudo arp-sca…...
01-Redis-基础
1 redis诞生历程 redis的作者笔名叫做antirez,2008年的时候他做了一个记录网站访问情况的系统,比如每天有多少个用户,多少个页面被浏览,访客的IP、操作系统、浏览器、使用的搜索关键词等等(跟百度统计、CNZZ功能一样)。最开始存储…...
MCP-Playwright: 赋予AI模型操控浏览器的能力
在人工智能快速发展的时代,我们一直在寻找让AI与现实世界更好地交互的方式。今天我想向大家介绍一个强大的开源项目:MCP-Playwright,它正在改变AI模型与Web环境交互的方式。 源码地址:https://github.com/executeautomation/mcp-…...
Scala集合计算高级函数及案例
一、说明 1.过滤:遍历集合,获取满足指定条件的元素组成新集合 2.转化 / 映射(map):将集合中的每个元素映射到某一个函数 List(1, 2, 3, 4, 5, 6, 7, 8, 9)中每个元素加 1,得到List(2, 3, 4, 5, 6, 7, 8,…...
如何测试一个API接口?从原理到实践详解
在微服务架构和前后端分离的现代软件开发中,API接口是系统的“血管”,承担着数据传输与逻辑处理的核心功能。本文将用通俗的语言,结合实例,系统讲解API接口测试的原理、方法及工具,助你掌握这一关键技能。 目录 …...
弹簧质点系统(C++实现)
本文实现一个简单的物理算法:弹簧质点系统(Mass-Spring System)。这是一个经典的物理模拟算法,常用于模拟弹性物体(如布料、弹簧等)的行为。我们将使用C来实现这个算法,并结合链表数据结构来管理…...
java设计模式-代理模式
代理模式(proxy) 基本介绍 1、代理模式:为一个对象提供一个替身,一控制对这个对象的访问。即通过代理对象访问目标对象。这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,及扩展目标对象的功能。 2、被…...
【比赛编排软件的设计与实现】
有个朋友想要一个比赛编排软件,闲来无事,花几个晚上的时间帮忙编写了一下,主要本人也比较喜欢看NBA,想尝试实现类似的功能。最终实现功能展示如下: ![请添加图片描述](https://i-blog.csdnimg.cn/direct/6af8f323452…...