当前位置: 首页 > news >正文

RSUniVLM论文精读

一些收获:
1. 发现这篇文章的table1中,有CDChat ChangeChat Change-Agent等模型,也许用得上。等会看看有没有源代码。


摘要:RSVLMs在遥感图像理解任务中取得了很大的进展。尽管在多模态推理和多轮对话中表现良好,现有模型在像素级理解上存在不足,在处理多图像输入时也面临困难。RSUniVLM有变化检测和变化描述任务。为了增强模型在不同层次捕获视觉信息的能力,同时不增加模型体积,我们设计了一种名为“粒度导向的专家混合”(Granularity-oriented Mixture of Experts)的新架构,模型参数大约10亿。我们还构建了一个大规模的遥感指令跟随数据集,该数据集基于遥感和通用领域的多种现有数据集,涵盖了目标定位、视觉问答和语义分割等多种任务。

引言:随着llms的出现,很多领域显著发展,通过配备视觉编码模块,lvlms(large vlm)将llm的能力扩展到了通用视觉和语言理解,一个突破性的工作是llava,它在多模态对话数据上微调,展示了出色的视觉聊天能力。为了支持广泛的视觉任务,随后的研究工作尝试通过各种方式开发lvlm的潜力,包括利用更大规模的和更高质量的指令微调数据,设计更高效的微调方法(qa-lora),以及采用新的llm架构(moe)。此外,一些研究试图将多模态感知和生成任务统一起来,采用任务特定的头部进行处理。「感知任务:检测 分割 分类定位 问答等。生成任务:图像生成文本(描述) 图生图 文生图。把这两类任务统一起来意味着一个模型。底层共享同一个视觉语言backbone,针对不同的任务(分类 分割 问答)最后加上不同的结构进行任务输出。比如分类的head是softmax分类器,分割head是卷积结构输出pixel-wise label,文本生成是一个语言模型头用来生成文字。」通用lvlm在常规领域表现好,但是在rs领域不行,因为rs图像和自然场景图像差异大。为了弥合这差距,提出了几种大规模rs图像-文本对数据集和指令微调数据集。然而现有的rs领域的lvlm,还是仅限于图像级和区域级,缺乏像素级理解,无法处理语义分割这样的任务。为了解决上述问题,本文提出了一个统一的框架RSUniVLM,是首个支持图像级、区域级和像素级理解与推理任务的rs专用视觉-语言模型,并且具有多图像分析能力。

RSUniVLM在像素级理解多图像分析方面扩展了RS领域的视觉-语言模型。采用Text4Seg方法,把语义分割的mask结果转成一句描述性的文字,让语言模型可以“说出”分割的结果,从而统一所有任务为“文本生成任务”。「语言的形式表示mask:

相关工作 

通用vlm就不说了

RS vlms有很多,包括rsgpt geochat lhrs-bot skyeyeGPT change-agent和changechat等。rsUniVLM是对个统一的遥感视觉-语言模型,能处理 图像级 区域级和像素级 且是端到端的。

moe(mixture of experts) 主要由两个组件组成 专家层和路由器,输入的计算不会全部由一个固定的模型处理,而是通过路由器来选择不同的专家处理不同的输入。在这项工作中,作者提出了一种新的稀疏 Granularity-oriented MoE 架构,旨在 提升多模态理解能力。这种架构在 MoE 基础上进一步创新,专注于不同粒度的任务(例如 图像级区域级 和 像素级):

  • 粒度导向(Granularity-oriented): MoE 专家不再仅仅根据输入类型来分配,而是根据任务的粒度(例如,高层次的图像分类和低层次的像素分割)来选择相应的专家进行处理。

  • 稀疏(Sparse): 这种新架构是稀疏的,即 并非所有专家都参与计算,只有最相关的专家会被激活,从而减少计算量

方法描述

模型设计:该模型遵循常见的llava风格框架的设计范式,主要包含四个关键组件 图像编码器、文本嵌入层、多层投影器(mlp)、大语言模型llm。对于具有多张图像的输入,我们使用共享权重的图像编码器分别提取每张图像的特征,然后直接在嵌入维度上将它们拼接。「就是说 输入多张图像的时候 用同一个image encoder来提取特征,这个图像编码器的权重是共享的。在提取完每张图像的特征向量后,将它们连接在一起,拼成一个大向量。当输入图像数量不同导致拼接后的向量维度不同时,模型会通过填充或池化,将不同向量维度变成相同的。」

统一表示:我们将所有任务都转化为 仅文本生成任务,包括对象定位和分割。视觉定位和指代表示生成的边界框都是标准化为0-100之间的整数,并以文本格式表示[x1, y1, x2, y2]。对于mask生成的任务,用Text4seg方法。

基于粒度的专家混合(g-moe):三个粒度,图像级、区域级、像素级。为了有效整合这些专家,采用了一个无训练的门控机制(gating mechanism)。该机制根据输入数据的特点将输入提示分配给特定的专家,确保模型响应既能考虑上下文又能高效执行。

训练策略:两阶段的从粗到细训练策略:首先进行多任务的预训练阶段,然后通过精细调优阶段进一步提高模型。第一阶段:全参数微调,将遥感领域的知识注入预训练的视觉语言模型中。为了创建一个强大的指令跟随数据集,我们整合了十五个不同的公共数据集,涵盖遥感领域的五个不同任务,并将其转换为结构化的指令跟随集合,使用手工编写的模版。还引入了部分来自rs和通用领域的高质量指令集。这一阶段,g-moe层还没引入到llm中,因此模型重点集中在基础的对齐任务上。第二阶段:我们通过重复三次ffn层(前馈网络feed-forward network 通常是个全连接层)来初始化专门针对不同类型遥感任务的专家。我们根据任务的粒度和多样性,从阶段1的训练集中选取了一小部分遥感特定的指令数据,用于进一步微调g-moe层。      这两个训练阶段的目标是相同的:通过逐步细化模型,增强其对不同任务的理解能力。

实验

 

局限性:

 多轮对话能力较弱(可以更多更高质量多轮对话数据来改进)、无法执行生成任务如超分辨率和去雾。

相关文章:

RSUniVLM论文精读

一些收获: 1. 发现这篇文章的table1中,有CDChat ChangeChat Change-Agent等模型,也许用得上。等会看看有没有源代码。 摘要:RSVLMs在遥感图像理解任务中取得了很大的进展。尽管在多模态推理和多轮对话中表现良好,现有模…...

redis特性及应用场景

文章目录 什么是redis?热库redis作为热库的特性redis适用场景 什么是redis? redis在系统架构中的位置就是冷热分离架构的热数据库位置, redis就是热库, 我们一般说缓存数据库。 其他的像MySQL、SQL Server这种关系数据库、MongoDB…...

Java中正则表达式使用方法

1. 正则表达式概述 正则表达式(Regular Expression,简称 Regex)是一种用于匹配字符串的模式工具。在 Java 中,正则表达式通过 java.util.regex 包实现,主要涉及以下两个类: Pattern:表示一个编…...

CSS基础

1. CSS入门 1.1. CSS是什么 CSS是Cascading Style Sheets的缩写,翻译为层叠样式表。CSS是一种样式表语言,用来描述HTML文档的表现方式,如字体、色彩、背景色等等。我们先从一段简单的CSS代码开始。 代码1 CSS示例 p {color: red; }这段代…...

【Linux系统篇】:什么是信号以及信号是如何产生的---从基础到应用的全面解析

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:Linux篇–CSDN博客 文章目录 一.信号概念1.生活角度的信号2.技术应用角度的信号3.补充内容前…...

SpringSecurity源码解读AbstractAuthenticationProcessingFilter

一、介绍 AbstractAuthenticationProcessingFilter 是 Spring Security 框架里的一个抽象过滤器,它在处理基于表单的认证等认证流程时起着关键作用。它继承自 GenericFilterBean,并实现了 javax.servlet.Filter 接口。此过滤器的主要功能是拦截客户端发送的认证请求,对请求…...

Python torchvision.transforms 下常用图像处理方法

torchvision.transforms 是 PyTorch 用于处理图像数据的一个模块,提供了丰富的图像变换功能。 1. transforms.Compose 的使用方法 transforms.Compose 用于将多个 transforms 操作组合起来,形成一个变换序列,然后按顺序对图像进行处理。其输…...

Zynq7020 制作boot.bin及烧录到开发板全流程解析

Zynq7020作为Xilinx推出的经典SoC芯片,其PS(Processing System)与PL(Programmable Logic)协同工作的特性使其在嵌入式开发中广泛应用。然而,初次接触Zynq的开发者在制作启动文件boot.bin及烧录时&#xff0…...

【办公类-89-02】20250424会议记录模版WORD自动添加空格补全下划线

背景需求 4月23日听了一个MJB的征文培训,需要写会议记录 把资料黏贴到模版后,发现每行需要有画满下划线 原来做这套资料,就是手动按空格到一行末,有空格才会出现下划线,也就是要按很多的空格(凑满一行&…...

Python-36:饭馆菜品选择问题

问题描述 小C来到了一家饭馆,这里共有 nn 道菜,第 ii 道菜的价格为 a_i。其中一些菜中含有蘑菇,s_i 代表第 ii 道菜是否含有蘑菇。如果 s_i 1,那么第 ii 道菜含有蘑菇,否则没有。 小C希望点 kk 道菜,且希…...

某大型电解铝厂电解系统谐波治理装置改造沃伦森电气

电解铝行业谐波治理解决方案——无源滤波装置优化升级,保障稳定运行 在电解铝生产过程中,谐波污染问题严重影响电网电能质量,甚至可能导致滤波装置损坏,引发群爆事故。河南登封某大型电解铝厂通过无源滤波装置智能化改造&#xff…...

基于YOLO+DeepSeek的农作物病虫害检测系统

前言 本系统是一个基于YOLODeepSeek的农作物病虫害检测系统。 可使用YOLOV1-YOLOV12的任意模型进行目标检测。可以实现检测图片、批量检测图片、视频检测、摄像头检测四种方式。 能够检测出[“苹果-黑腐病”, “苹果-健康”, “苹果-结痂”, “甜椒-细菌性斑疹”, “甜椒-健康…...

Python实现技能记录系统

Python实现技能记录系统 来自网络,有改进。 技能记录系统界面如下: 具有保存图片和显示功能——允许用户选择图片保存,选择历史记录时若有图片可预览图片。 这个程序的数据保存在数据库skills2.db中,此数据库由用Python 自带的…...

【专题刷题】二分查找(一):深度解刨二分思想和二分模板

📝前言说明: 本专栏主要记录本人的基础算法学习以及LeetCode刷题记录,按专题划分每题主要记录:(1)本人解法 本人屎山代码;(2)优质解法 优质代码;&#xff…...

基于Python+Flask的MCP SDK响应式文档展示系统设计与实现

以下是使用Python Flask HTML实现的MCP文档展示系统: # app.py from flask import Flask, render_templateapp Flask(__name__)app.route(/) def index():return render_template(index.html)app.route(/installation) def installation():return render_templa…...

Flask + ajax上传文件(一)

一、概述 本教程将教你如何使用Flask后端和AJAX前端实现文件上传功能,包含完整的代码实现和详细解释。 二、环境准备 1. 所需工具和库 Python 3.xFlask框架jQuery库Bootstrap(可选,用于美化界面)2. 安装Flask pip install flask三、项目结构 upload_project/ ├── a…...

【每天一个知识点】熵(Entropy)

“熵(Entropy)”是信息论、热力学、机器学习等多个领域的核心概念。它可以用一句话概括为: 🔑 熵表示系统的不确定性或信息混乱程度。 📚 一、信息论中的熵(Information Entropy) 在 Claude Sh…...

GIT 使用小记

全局设置 PS C:\workspace> git config --global user.name "FreeMan" PS C:\workspace> git config --global user.email "12323772wawhyuser.noreply.gitee.com" PS C:\workspace> git remote add origin https://gitee.com/wawhy/mountain.git…...

如何保证高防服务器中的系统安全?

对于高防服务器中的系统安全,企业通常会采取一系列的防护措施和策略防止网络攻击、入侵、恶意软件和其他网络安全威胁,下面是几个较为主要的安全防护措施,能够帮助企业提升高防服务器的安全性。 定期更新服务器中操作系统以及所有安装的软件&…...

【go语言】window环境从源码编译go

背景 早就听过go语言已经实现自举, 也就是使用旧版本go,来编译新版源码,得到新版本go。 步骤 1. 下载源码 git clone https://github.com/golang/go.git 2. 开始make cd go\src make.bat 3. 等待编译 卡住就按下回车 验证新版本 ……...

医学图像(DICOM数据)读取及显示(横断面、冠状面、矢状面、3D显示)为什么用ITK+VTK,单独用ITK或者VTK能实一样功能吗?

在医学图像处理中,结合使用 ITK 和 VTK 是常见的做法,因为它们各自专注于不同的核心功能。以下是逐步解释为何代码中同时使用两者,以及单独使用是否可行的分析: 1. 为什么用ITK处理DICOM数据? 1.1 ITK的DICOM处理优势…...

TiDB 深度解析与 K8S 实战指南

一、TiDB 核心特性与架构原理 1. 核心特性 分布式架构: 采用计算(TiDB Server)、存储(TiKV)、调度(PD)分离设计,支持水平扩展至 PB 级数据量。通过 PD 动态调度 Region&#xff08…...

WPS右键菜单中“上传到云文档”消失,使用命令行注册解决

关于上传到wps云文档,右键菜单莫名消失的问题 尝试在WPS设置显示上传到wps云文档的右键菜单,以及使用设置和修复工具修复,均无法显示菜单。 最终解决方法: regsvr32 "D:\Program Files (x86)\WPS Office\12.1.0.20784\offic…...

计算机求职面经内容与技巧分享

计算机求职面经内容与技巧分享 一、求职前的充分准备 (一)简历优化 突出技术能力:在简历中,务必清晰呈现自己精通的编程语言,例如熟练掌握 Java、Python 等语言的核心语法、常用库及框架。详细列举熟悉的技术栈&#x…...

java Springboot使用扣子Coze实现实时音频对话智能客服

一、背景 因公司业务需求,需要使用智能客服实时接听顾客电话。 现在已经完成的操作是,智能体已接入系统进行对练,所以本文章不写对联相关的功能。只有coze对接~ 扣子提供了试用Realtime WebSocket,点击右上角setting配…...

焦化烧结行业无功补偿解决方案—精准分组补偿 稳定电能质量沃伦森

在焦化、烧结等冶金行业,负荷运行呈现长时阶梯状变化,功率波动相对平缓,但对无功补偿的分组精度要求较高。传统固定电容器组补偿方式无法动态跟随负荷变化,导致功率因数不稳定,甚至可能因谐波放大影响电网安全。 行业…...

机器人项目管理新风口:如何高效推动智能机器人研发?

在2025年政府工作报告中,“智能机器人”首次被正式纳入国家发展战略关键词。从蛇年春晚的秧歌舞机器人惊艳亮相,到全球首个人形机器人马拉松的热议,智能机器人不仅成为科技前沿的焦点,也为产业升级注入了新动能。而在热潮背后&…...

ZooKeeper配置优化秘籍:核心参数说明与性能优化

#作者:张桐瑞 文章目录 tickTime:Client-Server通信心跳时间initLimit:Leader-Follower初始通信时限syncLimit:Leader-Follower同步通信时限dataDir:数据文件目录clientPort:客户端连接端口服务器名称与地…...

uniapp -- 实现微信小程序、app、H5端视频上传

布局及实现代码&#xff1a; <template><view class"flex flex-column p-4 grid-gap-4"><view class"flex flex-column grid-gap-4 bg-white p-4 rounded-4"><view class"font-weight-600">视频名称</view><i…...

2025年Redis分片存储性能优化指南

一、分片规则与负载均衡 动态哈希分片‌ 采用CRC16算法计算键哈希值&#xff0c;通过hash_slot CRC16(key) % 16384确定槽位分布&#xff0c;结合Redis Cluster自动管理槽位迁移。 总分片数按需动态调整&#xff0c;例如从16节点扩容至32节点时&#xff0c;触发槽位重分配以…...

前端跨端框架的开发以及IOS和安卓的开发流程和打包上架的详细流程

以下是关于 前端跨端框架开发 以及 iOS/Android 原生开发流程与上架 的详细指南&#xff0c;涵盖技术选型、开发工具、打包发布全流程&#xff1a; 一、前端跨端开发框架对比与流程 主流跨端框架 框架技术栈性能接近原生生态成熟度适用场景React NativeJS/React80%⭐⭐⭐⭐⭐…...

项目《基于Linux下的mybash命令解释器》(二)

一、使用系统命令的完整代码 #include<stdio.h> #include<wait.h> #include<stdlib.h> #include<unistd.h> #include<assert.h> #include<string.h> #include<pwd.h>#define ARG_MAX 10//防止参数不够&#xff0c;可以做到一改全改…...

arm64适配系列文章-第十章-arm64环境上jenkins的部署

ARM64适配系列文章 第一章 arm64环境上kubesphere和k8s的部署 第二章 arm64环境上nfs-subdir-external-provisioner的部署 第三章 arm64环境上mariadb的部署 第四章 arm64环境上nacos的部署 第五章 arm64环境上redis的部署 第六章 arm64环境上rabbitmq-management的部署 第七章…...

PyTorch生成式人工智能实战(2)——PyTorch基础

PyTorch生成式人工智能实战&#xff08;2&#xff09;——PyTorch基础 0. 前言1. 创建 PyTorch 张量2. PyTorch 张量索引和切片3. PyTorch 张量形状4. 在 PyTorch 张量数学运算小结系列链接 0. 前言 为了训练生成式人工智能模型&#xff0c;我们可以使用多种数据格式&#xff…...

解决高德地图AMapUtilCoreApi、NetProxy类冲突

问题&#xff1a; Duplicate class com.amap.apis.utils.core.api.AMapUtilCoreApi found in modules jetified-3dmap-10.0.600 (com.amap.api:3dmap:10.0.600) and jetified-search-9.7.1 (com.amap.api:search:9.7.1) Duplicate class com.amap.apis.utils.core.api.NetProx…...

java—14 ZooKeeper

一、ZooKeeper简介 ZooKeeper是一种分布式协调服务&#xff0c;用于管理大型主机。在分布式环境中协调和管理服务 是一种复杂的过程&#xff0c;ZooKeeper通过简单的架构和API解决了这个问题。ZooKeeper运行开 发人员专注于核心应用程序逻辑&#xff0c;而不必担心应用程序的分…...

特征存储的好处:特征存储在机器学习开发中的优势

随着企业寻求提升机器学习生产力和运营能力 (MLOps),特征存储 (Feature Store) 的普及度正在迅速提升。随着 MLOps 技术的进步,特征存储正成为机器学习基础设施的重要组成部分,帮助企业提升模型的性能和解释能力,并加速新模型与生产环境的集成。这些存储充当集中式存储库,…...

【Promethus(普罗米修斯)介绍安装及使用】

一、系统介绍 1、什么是Prometheus? Prometheus:不仅是一款时间序列数据库,在整个生态上还是一套完整的监控系统。同时,还涉及许多以“explore”命名的客户端数据采集工具以及pushgateway网关。 官网:https://prometheus.io/ 文献:https://prometheus.io/docs/introdu…...

力扣热题100题解(c++)—矩阵

73.矩阵置零 给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 int m matrix.size(); // 行数int n matrix[0].size(); // 列数bool firstRowZero false; // 标记第一行是否包含 0bool f…...

Spring Boot Controller 单元测试撰写

文章目录 引言标准用法必需依赖项核心注解说明代码示例 当涉及静态方法时的测试策略必需依赖项核心注解说明代码示例 引言 之前在编写 Controller 层的单元测试时&#xff0c;我一直使用 SpringBootTest 注解&#xff0c;但它会加载整个 Spring 应用上下文&#xff0c;资源开销…...

MVCC详解

目录 undo日志版本链 read view一致性视图 MVCC过程分析 读事务&写事务 Multi-Version Concurrency Control&#xff0c;多版本并发控制在读已提交和可重复读隔离级别下都实现了MVCC机制 undo日志版本链 一行数据被修改后&#xff0c;MySQL会保留修改前的数据&#xff08;u…...

【通关函数的递归】--递归思想的形成与应用

目录 一.递归的概念与思想 1.定义 2.递归的思想 3.递归的限制条件 二.递归举例 1.求n的阶乘 2.顺序打印一个整数的每一位 三.递归与迭代 前言:上篇博文分享了扫雷游戏的实现&#xff0c;这篇文章将会继续分享函数的递归相关知识点&#xff0c;让大家了解并掌握递归的思…...

Python爬虫实战:移动端逆向工具Fiddler经典案例

一、引言 在移动互联网迅猛发展的当下,移动端应用产生了海量的数据。对于开发者而言,获取这些数据对于市场调研、竞品分析、数据挖掘等工作具有重要意义。Fiddler 作为一款功能强大的 Web 调试代理工具,能够有效捕获、分析和修改移动端的网络请求,为开发者深入了解移动端网…...

从平台工程视角出发,重塑云原生后端的工程体系

📝个人主页🌹:慌ZHANG-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言:从 DevOps 到平台工程,云原生后端的演进逻辑 云原生的广泛应用,使得后端系统的开发、部署与运维逐渐从“编写业务代码”演进为“构建工程平台”。过去,后端开发者通常将注意力集中于 API 编写…...

【Hive入门】Hive分区与分桶深度解析:优化查询性能的关键技术

引言 在大数据领域&#xff0c;Apache Hive作为构建在Hadoop之上的数据仓库工具&#xff0c;因其类SQL的查询语言(HiveQL)和良好的扩展性而广受欢迎。然而&#xff0c;随着数据量的增长&#xff0c;查询性能往往成为瓶颈。本文将深入探讨Hive中两种关键的数据组织技术——分区(…...

Pytorch中的Dataset和DataLoader

1. PyTorch数据处理的核心概念 在PyTorch中,数据处理主要依赖两个核心组件: torch.utils.data.Dataset:定义如何访问数据集(单个样本的数据和标签)。torch.utils.data.DataLoader:负责批量加载数据、打乱数据、并行加载等。1.1 为什么需要Dataset和DataLoader? 问题:深…...

中介者模式:解耦对象间复杂交互的设计模式

中介者模式&#xff1a;解耦对象间复杂交互的设计模式 一、模式核心&#xff1a;用中介者统一管理对象交互&#xff0c;避免两两直接依赖 当系统中多个对象之间存在复杂的网状交互时&#xff08;如 GUI 界面中按钮、文本框、下拉框的联动&#xff09;&#xff0c;对象间直接调…...

IEEE综述 | 车道拓扑推理20年演进:从程序化建模到车载传感器

导读 车道拓扑推理对于高精建图和自动驾驶应用至关重要&#xff0c;从早期的程序化建模方法发展到基于车载传感器的方法&#xff0c;但是很少有工作对车道拓扑推理技术进行全面概述。为此&#xff0c;本文系统性地调研了车道拓扑推理技术&#xff0c;同时确定了未来研究的挑战和…...

手撕C++STL list:深入理解双向链表的实现

目录 1. 引言 3. list 类的实现 (1) 基本结构 (2) 初始化与清理 (3) 插入与删除 (4) 常用接口 (4) 常用接口 4. 测试代码 5. 总结 1. 引言 在C STL中&#xff0c;list是一个基于双向链表的容器&#xff0c;支持高效的头尾插入/删除操作&#xff08;O(1)时间复杂度&…...

QMT学习课程Day1

我们先从交易的最基础&#xff0c;如何进行下单&#xff0c;最为简答的下单&#xff0c;帮助大家建立自信心。 首先导入相关函数&#xff1a; #encoding:gbk import pandas as pd import numpy as np import datetime import pandas as pd import numpy as np import talib i…...