当前位置: 首页 > news >正文

qwen2.5vl

多模态大模型通用架构:

在通用的MM-LLM(Multi-Modality LLM)框架里,共有五个模块,整体以LLM为核心主干,分别在前后有一个输入、输出的投影模块(Projector),投影模块主要是用于桥接不同模态输入和输出。输入投影模块(Input Projector)用于将模态编码器处理的不同模态特征映射到文本特征空间,以便输入给LLM;输出投影模块(Output Projector)用于将文本特征空间结果映射到模态生成器的输入空间,以引导模态生成器生成多模态结果。

(https://zhuanlan.zhihu.com/p/25267823390)

一、23.08 qwenvl发版

qwenvl 第一代分三个阶段训练,

①clip在图像语义级理解较强,但在ocr和图像细节理解弱。qwenvl准备1T图像-文本对,得到ocr/语义都很强的vit;

②在clip的基础上做多任务预训练;

③instruct监督微调。冻结vit。

(24.08 qwen2vl)

二、25.01 qwen2.5vl

1)原生图像分辨率:尽量保持(需要resize至被28整除)原有图像分辨率和长宽比。在112*112窗口内做14*14的window attention,最后2*2merge成原图视野域为28*28的token。

2)视频动态FPS采样:在视频数据中,用2*14*14的三维卷积将连续两帧图像合并为一张特征图。在采样时按照绝对时间(如0.5秒一帧)顺序排列,并按照绝对帧序进行三维空间的位置编码。所谓动态FPS采样,即将不同采样间隔的图像序列merge到一起,兼容长短期动作的多样性。

      图像处理:对图像做复制操作,使得单一图片,变成一个时序为2的帧序列。

3)M-ROPE(Multi-Modal Rotational Positional Embedding):文本text位置编码是一维,图像是二维,视频是三维。ROPE通过旋转矩阵相乘的形式编码(可参考https://zhuanlan.zhihu.com/p/719388479)。对于文本模态,只需要三个维度位置编码相同即可与视频对齐。

4)更高效的视觉编码器vit:大部分是window attention,112*112窗口内做14*14的window attention,window size实际上只有8*8;仅在[7,15,23,31]的4层做了full attention;ViT 架构与采用了 RMSNorm 和 SwiGLU 结构。

5)视觉定位能力:在做一些grounding任务时,qwen2vl会将box的坐标点做 (0,1000) 的规范化处理,在qwen2.5vl版本中,不进行坐标归一化,而是使用实际的像素点来表示坐标,这样能是模型学习到图像的真实尺寸信息。

6)参数分布:在3/7/72B版本的qwen中,vit结构和参数是一模一样的(600+M),只是在2*2merge时,为了match LM中的维度做了不同的升维。

7)训练方式:

8)最高图像/视频尺度,最多支持32k长度的token,即32k*28*28区域的图像。

9)qwen2.5vl-3/7/32/72B不同规模对应着llm的尺度,即qwen2.5vl-3B用的LLM模型时qwen2.5-3B。

相关文章:

qwen2.5vl

多模态大模型通用架构: 在通用的MM-LLM(Multi-Modality LLM)框架里,共有五个模块,整体以LLM为核心主干,分别在前后有一个输入、输出的投影模块(Projector),投影模块主要…...

国产Word处理控件Spire.Doc教程:在Java中为Word文本和段落设置边框

在 Word 文档中添加边框是一种突显重点信息的有效方式,尤其适用于包含大量文本的内容场景。相比普通格式,给字符或段落添加边框不仅能强化视觉层次,还能提升文档的专业感与可读性。E-iceblue旗下Spire系列产品是国产文档处理领域的优秀产品&a…...

【CUDA C实战演练】CUDA介绍、安装、C代码示例

文章目录 0. 前言1. 并行计算与异构计算1.1 并行计算(Parallel Computing)1.2 异构计算(Heterogeneous Computing) 2. CUDA 的核心概念2.1 主机(Host)与设备(Device)2.2 线程层次结构…...

滑动窗口——无重复字符最长的字串

题目: 子字符串,我们也可以看成子数组。 题意不难理解,这个题我们暴力枚举的思路是把每一个字符遍历存到hash桶中,如果放两次就进行结果更新。 但这个题我们有更优化的方法,利用数组代替hash(重点不在这&…...

QT中connect高级链接——指针、lambda、宏

1、connect使用指针 connect(button,&QPushButton::released,this,&MainWidget::mySlot); //【抬起】按钮button时,修改按钮b2的标题 2、使用lambda表达式 引入lambda表达式,类似内联函数,可以用于不会被重用的短代码片段&#x…...

说说es配置项的动态静态之分和集群配置更新API

这天因为某件工作来到了es官网某个参数配置相关的页面,注意到了下图圆圈里的“Dynamic”: 链接:https://www.elastic.co/guide/en/elasticsearch/reference/8.1/modules-cluster.html#misc-cluster-settings 显然这是对配置项的一个描述&am…...

如何有效防御服务器DDoS攻击

分布式拒绝服务(DDoS)攻击通过大量恶意流量淹没服务器资源,导致服务瘫痪。本文将提供一套结合代码实现的主动防御方案,涵盖流量监控、自动化拦截和基础设施优化。 1. 实时流量监控与告警 目标:检测异常流量并触发告警…...

C#上传文件到腾讯云的COS

测试环境: vs2022 .net 6控制台应用程序 测试步骤如下: 1 添加子用户,目前是为了拿到secretId和secretKey,打开添加子用户界面链接:https://console.cloud.tencent.com/cam 并为子用户添加API 密钥 2 通过链接htt…...

强缓存与协商缓存的实现机制

文章目录 前言**1. 强缓存(强制缓存)****强缓存生效流程**:**2. 协商缓存(对比缓存)****协商缓存生效流程**:**对比总结****实际应用建议** **1. 缓存配置的三种主要实现方式** 前言 强缓存与协商缓存的实…...

【云备份】项目展示项目总结

目录 一. 项目展示 二. 项目总结 一. 项目展示 首先我们打开服务端,把没有用的东西都删干净,包括备份的文件信息啊什么的 这个时候我们启动服务器 我们先用浏览器去看看 什么东西都没有。 好,我们现在去启动客户端,下面这个是客…...

嵌入式 Linux Platform 驱动模型测试

文章目录 一、为什么要用 Platform 驱动模型? 二、Platform 驱动模型的三大核心组件 1.Platform 总线(虚拟总线) 2.Platform 设备(platform_device) 3.Platform 驱动(platform_driver) 三、Plat…...

Linux:web服务nginx

一.Nginx简介 Nginx (engine x) 是一个高性能的Web和反向代理服务器,同时也是一个 IMAP/POP3/SMTP 代理服器。Nginx处理高并发能力是十分强大的,能经受高负载的考验。而且支持热部署,几乎可以做到 7 * 24 小时不间断运行,即使运行…...

【“星睿O6”评测】Armv9.2a、KLEIDIAI及vulkan加速llamacpp部署本地AI

llamacpp 简介 llama.cpp 的主要目标是通过最小的设置,实现 LLM 推理,在各种硬件上(无论是本地还是云端)提供最先进的性能。 纯 C/C实现,无任何依赖苹果 M1/M2 芯片(Apple silicon)优化&#…...

Advanced Installer 22.5打包windows 安装包

Advanced Installer 22.5打包windows 安装包 1、打开Advanced Installer 22.5打包工具,绿色免安装下载链接:https://download.csdn.net/download/LongtengGensSupreme/90778405 2、选择需要打包的文件 3、设置安装文件夹权限 4、安装参数设置 5、构建设…...

Qt界面设计时窗口中各控件布局及自适应方法

在进行Qt界面设计时,往往会因为控件的布局以及伴随窗口拉伸时控件没有做好自适应部署而导致界面效果大打折扣。 这里简单介绍一下QtDesigner实现界面自适应布局,包括水平布局、垂直布局、栅格布局应用,确保界面元素随窗口变化自动调整。 图1 如图所示,这是我们的设计目标…...

添加地形与自定义地形

在先前我们设置的地图中,放大后不难发现这是2d平面 此时我们可以使用cesium自带的方法对图层进行修改 terrainProvider:Cesium.createWorldTerrainAsync(_) 修改后重新打开地图明显有了3d效果 还可以自定义添加水纹效果 requestWaterMask: true, // 可选:请求水面掩…...

livedata使用,完整的livedata的Demo

完整 LiveData Demo(Java 实现) 下面是一个可直接运行的完整 LiveData 示例,包含 ViewModel、LiveData 的基本使用以及与 UI 的交互。 项目结构 app/ ├── java/ │ ├── com.example.livedatademo/ │ │ ├── MainActivity.java │ …...

SpringBoot+Vue全栈的一个简单入门案例

目录 开发环境 Github开源项目 入门一:跑起别人的开源项目 跑起前端Vue 跑起后端SpringBoot 运行效果 入门二:将HTML模板转成Vue组件 下载一个免费的HTML模板 通过Trae将HTML转成Vue组件 将生成Vue组件增加为Vue的一个路由节点 运行Vue看看效…...

Nginx 性能调优与深度监测全攻略

目录 Nginx 性能调优与深度监测全攻略 一、引言 二、Nginx 核心性能调优策略 2.1 基础参数优化 2.1.1 worker 进程配置 2.1.2 事件驱动模型优化 2.2 缓存与资源优化 2.2.1 静态资源缓存 2.2.2 反向代理缓存 2.3 网络与连接优化 2.3.1 TCP 参数调整 2.3.2 Keep-Aliv…...

bad interpreter: No such file or directory

shell脚本加sqlite插入语句,内容如下: #!/bin/bash # 数据库文件路径 DB_FILE"/opt/ecu/db/Test.db" # 检查数据库文件所在目录是否存在,若不存在则创建 DB_DIR$(dirname "$DB_FILE") if [ ! -d "$DB_FILE" ]…...

python安装pyqt5失败

记录 PyQt5不支持3.10及以上版本,pip install PyQt5时报错raise PyProjectOptionException(qmake 详细错误信息如下: $ pip install PyQt5 Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple Collecting pyqt5Using cached https://pypi…...

【风控】模型监控和异常处理

在风控模型的全生命周期中,模型监控与异常处理是保障模型持续、稳定、可靠运行的关键环节。本指南旨在提供系统化、可落地的监控指标、预警策略及异常处置流程,帮助团队快速定位、响应并修复线上模型问题,最大限度降低风险。 1.模型监控与预…...

高并发内存池(一):项目简介+定长内存池的实现

目录 一,项目介绍 二,什么是内存池 1,池化技术 2,内存池 3,内存池主要解决的问题 4,malloc 三,实现一个定长内存池 定长内存池的设计 大致结构 核心功能实现 申请一块大小为T的内存 释…...

STM32--TIM--函数

void TIM_ITConfig(TIM_TypeDef* TIMx, uint16_t TIM_IT, FunctionalState NewState) 用于使能或禁用指定的定时器中断。...

文生图(Text-to-Image)的发展

文章目录 1. 早期探索(2010-2015):传统方法与初步尝试2. 文本条件GAN时代(2016-2019)3. 自回归与VQ-VAE时代(2019-2021)4. 扩散模型革命(2021-2022)(1) 扩散模型基础突破…...

vscode预览模式(点击文件时默认覆盖当前标签,标签名称显示为斜体,可通过双击该标签取消)覆盖标签、新窗打开

文章目录 VS Code 预览模式如何取消预览模式(即“固定”标签页)?预览模式有什么用? VS Code 预览模式 在 VS Code 中,当你单击文件浏览器(例如,资源管理器侧边栏)中的某个文件时&am…...

热部署相关

手动热部署 启动热部署后代码进行修改可以不用重启整个项目Carl F9修改的代码就可以直接生效了 热部署只进行重启的操作而不用进行重载的操作 自动热部署 自定义重启排除项 关闭热部署 ture为开启热部署false为关闭 如果直接在application.yml里写可能会被其他优先级更高的配…...

高防ip是怎么做到分布式防御的

高防IP的分布式防御体系通过多维度技术协同实现攻击流量的分散处理与智能拦截,其核心机制可从以下五个层面解析: ​​一、全球节点网络布局​​ ​​多区域节点覆盖​​ 在全球关键互联网枢纽(如北美、欧洲、亚太)部署清洗中心&am…...

结构可视化:利用数据编辑器剖析数据内在架构​

结构可视化聚焦于展示数据的内部结构和各部分之间的关系,使企业能够深入理解数据的组织方式和层次体系,从而更好地进行数据管理和分析。通过结构可视化,企业可以清晰地看到数据的层次结构、关联关系以及数据流动路径,为数据驱动的…...

QT编程练习20250507

#include <stdio.h> // 包含标准输入输出库 #include <stdlib.h> // 包含通用工具库&#xff08;如malloc, free等&#xff09; #include <string> // 包含C string类定义 #include <iostream> // 包含C输入输出流库using namespace std; // 使用st…...

【软件设计师:算法】3.排序算法

一、排序 将一组杂乱无章的数据按一定的规律次序排列起来。 排序的目的是什么? 便于查找!排序算法的好坏如何衡量? 时间效率——排序速度(即排序所花费的全部比较次数)空间效率——占内存辅助空间的大小稳定性——若两个记录A和B的关键字值相等,但排序后A、B的先后次序保…...

Linux 内核学习(7) --- 字符设备驱动

字符设备驱动程序 Linux 中主要有三类设备的驱动程序&#xff0c;分别是字符设备驱动程序&#xff0c;块设备驱动程序和网络设备驱动程序 字符设备是指在 I/O 传输过程中以字符为单位进行传输的设备&#xff0c;例如键盘&#xff0c;打印机等&#xff0c;字符设备的驱动程序结…...

vue3+vite项目引入tailwindcss

从2025年1月tailwindcss4.0发布开始使用tailwindcss比之前简化很多 1,安装 yarn add tailwindcss tailwindcss/vite2,配置vite.config.js import tailwindcss from tailwindcss/vite;...plugins: [tailwindcss(),...] ...3,在主css文件顶部添加 注意一定是css文件,不能是sc…...

IIS配置SSL

打开iis 如果搜不到iis&#xff0c;要先开 再搜就打得开了 cmd中找到本机ip 用http访问本机ip 把原本的http绑定删了 再用http访问本机ip就不行了 只能用https访问了...

LeetCode:对称二叉树

1、题目描述 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 示例 1&#xff1a; 输入&#xff1a;root [1,2,2,3,4,4,3] 输出&#xff1a;true 示例 2&#xff1a; 输入&#xff1a;root [1,2,2,null,3,null,3] 输出&#xff1a;false 提示&#xff1a; 树中…...

6天从0到精通:MySQL基础快速入门指南

放在前头 6天从0到精通&#xff1a;MySQL基础快速入门指南 6天从0到精通&#xff1a;MySQL基础快速入门指南 在数据驱动的时代浪潮下&#xff0c;MySQL作为全球最受欢迎的开源关系型数据库管理系统之一&#xff0c;广泛应用于Web开发、数据分析、云计算等多个领域。无论是刚…...

信息论12:从信息增益到信息增益比——决策树中的惩罚机制与应用

从信息增益到信息增益比&#xff1a;决策树中的惩罚机制与应用 引言&#xff1a;当"信息量"遇到"公平性" 在2018年某银行的信用卡风控系统中&#xff0c;数据分析师发现一个诡异现象&#xff1a;客户ID号在决策树模型中竟成为最重要的特征。这个案例揭示…...

C++ -- 哈希扩展

目录 位图 位图概念 位图的实现 位图应用 布隆过滤器 布隆过滤器的提出 布隆过滤器概念 布隆过滤器的插入 布隆过滤器的查找 布隆过滤器的删除 位图 给40亿个不重复的无符号整数&#xff0c;没排过序。给一个无符号整数&#xff0c;如何快速判断一个数是否在这40亿个数…...

AI大模型分类以及Prompt优化技巧

目录 一、AI大模型分类 1、按模态分类 2、按开源性分类 3、按规模分类 4、按用途分类 如何对比和选择大模型 二、Token 如何计算 Token 如何估算Token成本 三、Prompt工程 Prompt优化技巧 基础提示技巧 1、明确指定任何和角色 2、提供详细说明和具体示例 3、使用…...

将本地项目提交到新建的git仓库

方式一: # 登录git&#xff0c;新建git仓库和指定的分支&#xff0c;如master、dev# 下载代码&#xff0c;默认下载master分支 git clone http://10.*.*.67/performance_library/pfme-*.git # 切换到想要提交代码的dev分支 git checkout dev# 添加想要提交的文件 git add .#…...

【wpf】10 C#树形控件高效实现:递归构建与路径查找优化详解

在WPF应用程序开发中&#xff0c;树形控件的实现是常见且具有挑战性的需求。本文将深入解析一套高效树形结构的实现方案&#xff0c;包含递归构建、路径查找优化、动态交互等多个关键技术点。 一、递归构建树形结构 private TreeItem CreateTreeViewItem(TreeNode node) {var…...

低空科技护航珞樱春色,技术引领助推广阔应用

春风拂珞珈&#xff0c;樱海绽放时。赏樱季已接近尾声&#xff0c;作为武汉大学测绘遥感信息工程全国重点实验室的成果转化科技型企业&#xff0c;大势智慧积极参与校园的智能化建设&#xff0c;助力武汉大学的樱花季巡航管理&#xff0c;打造更为安全、有序的赏樱体验。 低空…...

Tiny Machine Learning在人类行为分析中的全面综述

论文标题&#xff1a; 中文&#xff1a;《Tiny Machine Learning在人类行为分析中的全面综述》 英文&#xff1a;A Comprehensive Survey on Tiny Machine Learning for Human Behavior Analysis 作者信息&#xff1a; Ismail Lamaakal, Student Member, IEEE, Siham Essahr…...

8.12 GitHub Sentinel企业级进化:容器化优化×AI监控,效率提升300%实战

GitHub Sentinel 扩展优化与商业化演进路径 关键词:企业级 Agent 扩展性设计、容器化部署优化、多格式报告生成、第三方服务集成、SaaS 服务架构 1. 功能扩展方向 1.1 多格式报告生成技术实现 采用模板引擎与文件流处理技术实现动态报告生成: #mermaid-svg-2BhQlvVsDp5NdL…...

算法-时间复杂度和空间复杂度

刷算法必备时间和空间复杂度&#xff0c;记录下方便查询。 时间复杂度 概念 时间复杂度衡量的是算法 执行所需的时间 随输入规模 n 增长的变化趋势&#xff0c;用大O 表示法描述&#xff08;通常是看这个循环&#xff09;。 分类 常数时间O(1) 无论输入多大&#xff0c;执行…...

springboot国家化多语言实现

前言 公司在做国际化项目时需要匹配多语言环境&#xff0c;通过spring实现i18n国际化方便快捷 项目结构 src/ ├── main/ │ ├── java/ │ │ └── com/example/i18ndemo/ │ │ ├── config/ # 配置类 │ │ ├── controller/ # …...

第2章 算法分析基础

2-1 算法的时间复杂度分析 2.1.1 输入规模与基本语句 输入规模&#xff1a;算法处理数据的规模&#xff0c;通常用 n 表示。 基本语句&#xff1a;执行次数与输入规模直接相关的关键操作。 例2.1 顺序查找 int SeqSearch(int A[], int n, int k) { for (int i 0; i < n…...

vue2 计算属性 computed

计算属性他是一个属性&#xff0c;他不是一个函数&#xff0c;使用的时候不要加括号 reduce reduce 是 JavaScript 数组的一个高阶函数&#xff0c;用于对数组中的每个元素执行一个​​累积计算​​&#xff0c;最终返回一个单一的值。...

Milvus 向量数据库详解与实践指南

一、Milvus 核心介绍 1. 什么是 Milvus&#xff1f; Milvus 是一款开源、高性能、可扩展的向量数据库&#xff0c;专门为海量向量数据的存储、索引和检索而设计。它支持近似最近邻搜索&#xff08;ANN&#xff09;&#xff0c;适用于图像检索、自然语言处理&#xff08;NLP&am…...

记录一次 python 文件环境变量配置-sqlmap.py

第一步&#xff1a;环境变量配置 C:\Users\14913\Downloads\application\3.secure\sqlmap-2025.5.6 或者 C:\Users\14913\Downloads\application\3.secure\sqlmap-2025.5.6 都可以&#xff01; 第二步 使用 第一步&#xff1a;不再进目录 第二步&#xff1a;不再python … s…...