武汉大学无人机视角下的多目标指代理解新基准!RefDrone:无人机场景指代表达理解数据集
-
作者:Zhichao Sun, Yepeng Liu, Huachao Zhu, Yuliang Gu, Yuda Zou, Zelong Liu, Gui-Song Xia, Bo Du, Yongchao Xu
-
单位:武汉大学计算机学院
-
论文标题:RefDrone: A Challenging Benchmark for Drone Scene Referring Expression Comprehension
-
论文链接:https://arxiv.org/pdf/2502.00392
-
代码链接:https://github.com/sunzc-sunny/refdrone
主要贡献
-
RefDrone基准数据集:提出了首个针对无人机场景中指代表达理解(REC)的综合性基准数据集RefDrone,它包含17900个指代表达,覆盖8536张图像,包含63679个目标实例。该数据集揭示了三个关键挑战:多尺度和小尺度目标检测、多目标和无目标样本、复杂环境中丰富的上下文表达。
-
RDAgent标注框架:开发了一种基于多智能体系统的半自动化标注工具RDAgent,用于REC任务。该框架通过将传统标注工作流程重构为多个智能体和人类标注者之间的交互系统,显著降低了标注成本,同时确保了高质量的复杂表达。
-
NGDINO方法:提出了一种名为Number GroundingDINO(NGDINO)的新方法,专门用于处理多目标和无目标样本。该方法通过引入数量预测头、可学习的数量查询编码以及数量交叉注意力模块,利用表达中提到的目标数量信息,显著提高了在多目标和无目标样本上的性能。
研究背景
-
无人机作为一种重要的机器人平台,在多种场景中发挥着重要作用,例如娱乐、包裹递送、交通监控和紧急救援等。在具身智能(Embodied AI)领域,无人机需要具备根据自然语言表达定位目标的能力,即指代表达理解(REC)。
-
然而,现有的REC数据集主要关注地面视角的场景,而无人机视角的场景具有独特的挑战,例如极端的视角变化、遮挡和目标尺寸变化等。因此,需要一个专门针对无人机场景的REC基准数据集,以推动相关技术的发展。
研究方法
数据集构建
-
数据来源:RefDrone数据集基于VisDrone2019DET数据集构建,该数据集包含无人机拍摄的图像,涵盖了多种场景、光照条件和飞行高度。论文通过设定图像和目标级别的过滤标准,筛选出包含至少3个目标的图像,并排除面积小于64像素的目标。
- RDAgent标注框架:该框架整合了大型语言模型(LLM)和人类标注者,通过五个结构化的步骤生成高质量的标注。具体步骤如下:
-
场景理解:基于GPT-4o的标题生成智能体为每张图像生成三个多样化的文本描述,为后续的指代表达生成提供上下文视角。
-
颜色分类:通过结合基于WideResNet-101模型的颜色属性提取和人工验证,确保颜色属性的准确性。
-
指代表达生成:将指代表达生成任务重新定义为对象分组问题,智能体的目标是将语义相关对象分组,并为每个组提供适当的理由(即指代表达)。如果检测到新的颜色,会触发动态反馈循环,返回颜色分类步骤。
-
质量评估:评估智能体对对象-表达对的语义准确性和指代唯一性进行评估,根据评估结果将标注分为“是”(准确且唯一)和“否”(不准确或不唯一)两类。对于“否”的标注,会根据问题类型返回到相应的步骤进行修正。
-
人工验证:人类标注者对标注输出进行三层次的审查,包括直接接受、需要修正和存在重大问题。对于存在重大问题的标注,会进入反馈循环,返回到质量评估步骤。
-
NGDINO方法
- 模型架构:NGDINO基于GroundingDINO(GDINO)的双编码器-单解码器架构,在解码器部分进行了改进。具体改进包括引入了数量预测头、可学习的数量查询编码以及数量交叉注意力模块。
-
数量预测头:通过前馈神经网络(FFN)层预测检测查询中提到的目标数量。
-
数量查询:这些查询是可学习的嵌入,用于捕获不同数量模式。通过预测的数量引导选择数量查询。
-
数量交叉注意力模块:将选定的数量查询与检测查询进行交叉注意力操作,将数量信息整合到检测查询中。
-
-
损失函数:对于边界框监督,采用GDINO中的损失函数。对于数量预测,使用L2损失。论文将数量预测空间量化为五个类别:{0, 1, 2, 3, 4+},其中4+表示所有大于等于4的数量。
实验
实验设置
-
RDAgent:通过将RDAgent适应于REC任务,用Faster R-CNN作为目标检测器,替换了人工验证步骤,以实现自动化。
-
NGDINO:采用两阶段过程进行训练。首先,在RefDrone数据集上预训练数量预测头,同时初始化其他组件的参数为GDINO的参数。然后,对整个模型进行微调。
-
基准模型:论文选择了13个具有代表性的模型作为基准,包括3个专家模型(MDETR、GLIP和GDINO)和10个大型多模态模型(LMMs)。
-
零样本评估:使用模型在原始论文中提供的检查点进行评估。
-
微调评估:保持原始学习策略一致,排除随机裁剪增强,对于LMMs采用LoRA微调策略。
实验结果
-
零样本结果:CogVLM在多个指标上表现出色,但一些先进的模型由于预训练数据或输出策略的限制,只能输出单个边界框,在多目标场景中表现受限。
- 微调结果:
-
专家模型MDETR在实例级指标上表现出色,但图像级理解能力较弱。LMMs如Qwen-VL在图像级理解上表现较好,但在实例级任务上表现较差。
-
RDAgent在实例级指标上取得了优于现有方法的结果,与GDINO-B相比,F1inst.提高了26.18%,Accinst.提高了21.14%。NGDINO在两个骨干架构上均优于基线GDINO。
-
-
在gRefCOCO数据集上的验证:NGDINO-T在gRefCOCO数据集上也优于基线方法GDINO-T,尤其是在N-acc.指标上,分别在test A和test B上提高了4.15%和1.39%。
- 消融研究:
-
NGDINO组件的有效性:数量预测头单独使用时对引用任务的影响较小,而引入数量交叉注意力时,Accinst.从19.02%提高到19.51%。结合数量预测任务和数量交叉注意力组件后,Accinst.进一步提高到20.98%。
-
查询长度的影响:通过实验发现,查询长度为10时提供了最佳的权衡。
-
RDAgent的有效性:RDAgent在所有指标上均优于GPT4-o和ReCLIP,但其性能部分受到Faster-RCNN目标检测器的限制。
-
结论与未来工作
- 结论:
-
论文提出了RefDrone基准数据集,专门用于无人机场景中的指代表达理解任务,并开发了RDAgent半自动化标注框架和NGDINO方法。
-
- 未来工作:
-
尽管NGDINO在多目标和无目标样本上取得了较好的性能,但在处理复杂背景、丰富上下文表达和小尺度目标检测时仍存在挑战。
-
在未来的工作中,论文计划进一步改进NGDINO以应对这些挑战,并扩展基准数据集以包含指代表达分割和指代表达跟踪任务。
-
相关文章:
武汉大学无人机视角下的多目标指代理解新基准!RefDrone:无人机场景指代表达理解数据集
作者:Zhichao Sun, Yepeng Liu, Huachao Zhu, Yuliang Gu, Yuda Zou, Zelong Liu, Gui-Song Xia, Bo Du, Yongchao Xu 单位:武汉大学计算机学院 论文标题:RefDrone: A Challenging Benchmark for Drone Scene Referring Expression Compreh…...
【LLM模型】如何构建自己的MCP Server?
什么是 MCP? Model Context Protocol (MCP) 是一种协议,它允许大型语言模型(LLMs)访问自定义的工具和服务。Trae 中的智能体作为 MCP 客户端可以选择向 MCP Server 发起请求,以使用它们提供的工具。你可以自行添加 MC…...
SQL 索引优化指南:原理、知识点与实践案例
SQL 索引优化指南:原理、知识点与实践案例 索引的基本原理 索引是数据库中用于加速数据检索的数据结构,类似于书籍的目录。它通过创建额外的数据结构来存储部分数据,使得查询可以快速定位到所需数据而不必扫描整个表。 索引的工作原理 B-…...
java基础-方法的重写、super关键字
1.定义:子类可以根据需要改写从父类那继承来的方法,执行时,子类的方法会覆盖父类的方法 2.要求: (1)子类和父类的方法必须同名,同参数列表 (2)父类中private修饰的方法…...
技术并不能产生一个好的产品
技术是产生一个好的产品充分条件,不是必要条件。 当笔者到了40岁的年龄时间,发现再怎么努力提升技术,也没办法挽救烂的产品设计。 一个好的产品,首先要找准自己的定位,不能动不动就把自己拿一线品牌来比较。 好的产品…...
lubuntu 系统详解
Lubuntu 系统详解:轻量高效的 Ubuntu 衍生版 一、系统概述 定位与背景: Lubuntu 是 Ubuntu 的官方衍生版本(Flavor),专注于轻量性与高效性,旨在为低配置设备(如老旧电脑、上网本、低配笔记本 …...
《设备管理与维修》审核严吗?“修改后再投”是拒稿了吗?
有过论文投稿经验的朋友,可能在审核后收到过“修改后再投”的回复。有些期刊可能是真的建议投稿人在修改后再投稿,有些则可能是标准的拒稿模板。 《设备管理与维修》审核严吗?收到“修改后再投”的回复该怎么办?下面我就来分享下之…...
2025年5月-信息系统项目管理师高级-软考高项一般计算题
决策树和期望货币值 加权算法 自制和外购分析 沟通渠道 三点估算PERT 当其他条件一样时,npv越大越好...
界面组件DevExpress WPF中文教程:Grid - 如何自定义Band Header外观?
DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…...
Supabase 的入门详细介绍
Supabase 是什么? 简单来说,Supabase 是一个开源的 Firebase 替代品。它提供了一整套后端即服务 (BaaS - Backend as a Service) 的工具,让你能够快速构建应用程序的后端,而无需自己从头搭建和管理服务器、数据库等基础设施。 S…...
【实战】基于 ABP vNext 构建高可用 S7 协议采集平台(西门子 PLC 通信全流程)
🚀🔧【实战】基于 ABP vNext 构建高可用 S7 协议采集平台(西门子 PLC 通信全流程)📊 📑 目录 🚀🔧【实战】基于 ABP vNext 构建高可用 S7 协议采集平台(西门子 PLC 通信全…...
20、map和set、unordered_map、un_ordered_set的复现
一、map 1、了解 map的使用和常考面试题等等,看这篇文章 map的key是有序的 ,值不可重复 。插入使用 insert的效率更高,而在"更新map的键值对时,使用 [ ]运算符效率更高 。" 注意 map 的lower和upper那2个函数&#x…...
leetcode 189. 轮转数组
题目描述 代码: class Solution { public:void rotate(vector<int>& nums, int k) {int len nums.size();k k % len;reverse(nums,0,len-1);reverse(nums,0,k-1);reverse(nums,k,len-1);}void reverse(vector<int>& nums,int left,int right…...
得物0509面试手撕题目解答
题目 使用两个栈(一个无序栈和一个空栈)将无序栈中的元素转移到空栈,使其有序,不允许使用其他数据结构。 示例:输入:[3, 1, 6, 4, 2, 5],输出:[6, 5, 4, 3, 2, 1] 思路与代码 如…...
8天Python从入门到精通【itheima】-6~10
目录 7节-开发出第一个Python程序: 1.在cmd窗口写下第一个最简单的程序:Hello World!!! 9节: 1.如何卸载python: 2.报错:不是可运行的程序 编辑 3.报错:无法初始化设备PRN: 4.报错&…...
Qt —— 使用Enigma Virtual Box将Qt程序打包为独立可运行exe(附:完整打包方法且完美运行)
🔔 Qt 相关技术、疑难杂症文章合集(掌握后可自封大侠 ⓿_⓿)(记得收藏,持续更新中…) 打包结果 1、如下图,准备好Qt已打包后程序文件夹。附 Qt —— 在Windows下打包Qt应用程序(在其他Windows电脑下使用)...
大语言模型RLHF训练框架全景解析:OpenRLHF、verl、LLaMA-Factory与SWIFT深度对比
引言 随着大语言模型(LLM)参数规模突破千亿级,基于人类反馈的强化学习(RLHF)成为提升模型对齐能力的关键技术。OpenRLHF、verl、LLaMA-Factory和SWIFT作为开源社区的四大标杆框架,分别通过分布式架构、混合…...
VTK|类似CloudCompare的比例尺实现1-源码分析
文章目录 CloudCompare源码分析void ccGLWindowInterface::drawScale(const ccColor::Rgbub& color)🧩 总体功能🧠 函数逐步解析✅ 1. 断言只在正交模式下使用✅ 2. 计算显示的实际长度✅ 3. 字体和图形区域准备✅ 4. 计算比例尺图形的绘制位置✅ 5.…...
【计算机视觉】OpenCV实战项目:基于Tesseract与OpenCV的字符识别系统深度解析
基于Tesseract与OpenCV的字符识别系统深度解析 1. 项目概述2. 技术原理与算法设计2.1 图像预处理流水线1) 形态学操作2) 自适应阈值 2.2 Tesseract OCR引擎 3. 实战部署指南3.1 环境配置3.2 项目结构优化建议3.3 增强版代码实现 4. 常见问题与解决方案4.1 Tesseract路径错误4.2…...
CVE-2025-31258 macOS远程视图服务沙箱逃逸漏洞PoC已公开
苹果公司近日针对macOS系统中新披露的CVE-2025-31258漏洞发布补丁,该漏洞可能允许恶意应用程序突破沙箱限制,获取未授权的系统资源访问权限。在安全研究员Seo Hyun-gyu公开概念验证(PoC)利用代码后,该漏洞已在macOS Se…...
使用CAS操作实现乐观锁的完整指南
乐观锁是一种高效的并发控制机制,而CAS(Compare-And-Swap)是实现乐观锁的核心技术。下面我将详细介绍如何通过CAS操作实现乐观锁。 一、CAS操作原理 CAS(Compare-And-Swap)是一种原子操作,包含三个操作数: 内存位置(V)预期原值(A)新值(B) …...
java之网络编程
文章目录 网络编程概述什么是网络编程基本的通信架构CS架构BS架构 Java提供了哪些网络编程解决方案? 网络编程三要素IPIP地址IP域名(Domain Name)DNS域名解析(Domain Name System)公网IP、内网IP本机IPInetAddress类In…...
苍穹外卖--新增菜品
1.需求分析和设计 产品原型 业务规则: 菜品名称必须是唯一的 菜品必须属于某个分类下,不能单独存在 新增菜品时可以根据情况选择菜品的口味 每个菜品必须对应一张图片 接口设计: 根据类型查询分类(已完成) 文件上传 新增菜品 根据类型…...
Spark处理过程-转换算子
(一)RDD的处理过程 Spark使用Scala语言实现了RDD的API,程序开发者可以通过调用API对RDD进行操作处理。RDD的处理过程如图所示; RDD经过一系列的“转换”操作,每一次转换都会产生不同的RDD,以供给下一次“转换”操作使…...
运行Spark程序-在Spark-shell——RDD
一、基本概念 RDD(弹性分布式数据集)是 Apache Spark 的核心抽象,是 Spark 提供的最基本的数据处理单元。理解 RDD 的概念对于掌握 Spark 编程至关重要。以下是 RDD 的核心概念和特性: 1. 什么是 RDD? 定义…...
Qt应用程序启动时的一些思路:从单实例到性能优化的处理方案
程序启动时优化的价值 在桌面软件开发领域,应用程序的启动过程就像音乐的序曲,决定了用户对软件品质的第一印象。比如首次启动等待超过3秒时,会让大多数用户产生负面看法,而专业工具软件的容忍阈值甚至更低。Qt框架作为跨平台开发…...
vue3父子组件传值
父 → 子:props 父组件 <template><ChildComponent :message"parentMessage" :user"user" /> </template><script setup> import ChildComponent from ./ChildComponent.vue; const parentMessage Hello from paren…...
中国品牌日 | 以科技创新为引领,激光院“风采”品牌建设结硕果
品牌,作为企业不可或缺的隐形财富,在当今竞争激烈的市场环境中,其构建与强化已成为推动企业持续繁荣的关键基石。为了更好地保护自主研发产品,激光院激光公司于2020年3月7日正式注册“风采”商标,创建拥有自主知识产权…...
合合信息上线智能文档处理领域首批MCP服务,助力企业快速搭建Agent
随着大模型及Agent技术的飞速发展,通过大模型调用外部工具正在成为AI应用开发的新范式。然而,由于不同大模型的调用结构和参数格式各异,开发者需要分别编写工具调用逻辑,AI工具集成效率低下,MCP(Model Cont…...
佰力博科技与您探讨表面电阻的测试方法及应用领域
表面电阻测试是一种用于测量材料表面电阻值的技术,广泛应用于评估材料的导电性能、静电防护性能以及绝缘性能。 1、表面电阻的测试测试方法: 表面电阻测试通常采用平行电极法、同心圆电极法和四探针法等方法进行。其中,平行电极法通过在试样…...
【DeepSeek】判断两个 PCIe 设备是否属于**同一个 PCIe 子树
在 Linux 系统中,判断两个 PCIe 设备是否属于**同一个 PCIe 子树(Subtree)**是 P2P 通信的关键前提。以下是具体方法和步骤: 一、基本原理 两个 PCIe 设备属于同一子树的条件: 共享同一 Root Port:它们的…...
一份完整的高级前端性能优化手册
以下是一份完整的高级前端性能优化手册,涵盖核心原理、关键指标、优化策略及工具链,适合中大型项目深度优化: 高级前端性能优化手册 🚀 以用户体验为核心的极致性能实践 一、性能指标体系与度量 1. 核心性能指标 (Core Web Vitals) LCP (Largest Contentful Paint):最大…...
Leetcode 3543. Maximum Weighted K-Edge Path
Leetcode 3543. Maximum Weighted K-Edge Path 1. 解题思路2. 代码实现 题目链接:3543. Maximum Weighted K-Edge Path 1. 解题思路 这一题思路上就是一个遍历的思路,我们只需要考察每一个节点作为起点时,所有长为 k k k的线段的长度&…...
agentmain对业务的影响
前面一篇已经说了java agent技术主要有premain和agentmain两种形式,如果大部分业务已经在线上运行的话,不方便用premain的方式来实现,所以agentmain的方式是更加通用、灵活的 由于RASP是与用户业务运行在同一个jvm中的 ,所以RASP…...
【前端】【JavaScript】【总复习】四万字详解JavaScript知识体系
JavaScript 前端知识体系 📌 说明:本大纲从基础到高级、从语法到应用、从面试到实战,分层级讲解 JavaScript 的核心内容。 一、JavaScript 基础语法 1.1 基本概念 1.1.1 JavaScript 的发展史与用途 1. 发展简史 1995 年:JavaS…...
开源模型应用落地-qwen模型小试-Qwen3-8B-融合VLLM、MCP与Agent(七)
一、前言 随着Qwen3的开源与技术升级,其在企业中的落地场景正加速拓展至多个垂直领域。依托Agent智能体能力 和MCP协议的工具调用接口 ,Qwen3可深度融入企业业务流程,为企业提供从需求解析到自动化开发的全链路支持。 本篇将介绍如何实现Qwen3-8B模型集成MCP实现智能体交互。…...
【Linux学习笔记】理解一切皆文件实现原理和文件缓冲区
【Linux学习笔记】理解一切皆文件实现原理和文件缓冲区 🔥个人主页:大白的编程日记 🔥专栏:Linux学习笔记 前言 哈喽,各位小伙伴大家好!上期我们讲了重定向 今天我们讲的是理解一切皆文件实现原理和文件缓冲区。话不…...
MCP-RAG 服务器:完整设置和使用指南
在快速发展的人工智能应用时代,结合静态领域知识和实时网络信息的系统需求比以往任何时候都更加迫切。传统的检索增强生成(RAG)模型通常依赖于预先索引的数据,这限制了它们对新发展的反应能力。MCP-RAG Server通过将基于语义的向量…...
裸金属服务器 VS 传统物理机
一:首先,我们先介绍一下,什么是裸金属服务器? 1.虚拟机的外表-平台可视化 可以通过后台管理界面查看当前所使用的全部信息包括:当前系统版本、CPU、内存、硬盘等相关信息。 2.虚拟机的外表-操作自动化 同样也可以在…...
React百日学习计划-Grok3
关键点 研究表明,100天内学习React是可行的,尤其是你已有HTML、JS和CSS基础。该计划包括基础知识、hooks、状态管理、路由、样式化及综合项目,适合初学者。建议每天花2-3小时学习,结合免费教程和社区支持。 开始学习 学习React…...
Android NDK 高版本交叉编译:为何无需配置 FLAGS 和 INCLUDES
引言:NDK 交叉编译的演进 Android NDK(Native Development Kit)是开发高性能C/C代码的核心工具链,而交叉编译(在x86主机上生成ARM架构代码)一直是NDK的核心功能。过去,开发者需要手动配置大量编…...
Java详解LeetCode 热题 100(15):LeetCode 189. 轮转数组(Rotate Array)详解
文章目录 1. 题目描述2. 理解题目3. 解法一:使用额外数组3.1 思路3.2 Java代码实现3.3 代码详解3.4 复杂度分析3.5 适用场景 4. 解法二:环状替换法(原地算法)4.1 思路4.2 Java代码实现4.3 代码详解4.4 复杂度分析4.5 陷阱与注意事…...
出于PCB设计层面考虑,连排半孔需要注意哪些事项?
通过拼接作为后处理运行,用拼接联排半孔填充铜的自由区域。为了使通缝成为可能,必须在不同的层上有重叠的铜区域连接到指定的网上。铜的支持区域包括填充、多边形和动力平面。 高电流对电路板的潜在负面影响的另一个例子是电路板结构的物理失效。制造原始…...
JIT+Opcache如何配置才能达到性能最优
首先打开php.ini文件,进行配置 1、OPcache配置 ; 启用OPcache opcache.enable1; CLI环境下启用OPcache(按需配置) opcache.enable_cli0; 预加载脚本(PHP 7.4,加速常用类) ; opcache.preload/path/to/prel…...
VR和眼动控制集群机器人的方法
西安建筑科技大学信息与控制工程学院雷小康老师团队联合西北工业大学航海学院彭星光老师团队,基于虚拟现实(VR)和眼动追踪技术实现了人-集群机器人高效、灵活的交互控制。相关研究论文“基于虚拟现实和眼动的人-集群机器人交互方法” 发表于信…...
LabVIEW与PLC通讯程序S7.Net.dll
下图中展示的是 LabVIEW 环境下通过调用S7.Net.dll 组件与西门子 PLC 进行通讯的程序。LabVIEW 作为一种图形化编程语言,结合S7.Net.dll 的.NET 组件优势,在工业自动化领域中可高效实现与 PLC 的数据交互,快速构建工业监控与控制应用。相较于…...
【华为】现场配置OSPF
原创:厦门微思网络 实验目的 1、了解OSPF的运行原理 2、掌握OSPF的配置方法 实验拓扑 实验需求 1、根据实验拓扑图,完成设备的基本配置; 2、分别在R1、R2、R3上创建Loopback0接口,IP地址分别是1.1.1.1/32、2.2.2.2/32、3.3.3.…...
STM32-DMA数据转运(8)
目录 一、简介 二、存储器映像 三、DMA框图编辑 四、DMA基本结构 五、两个数据转运的实例 一、简介 直接存储器存取简称DMA(Direct Memory Access),它是一个数据转运小助手,主要用来协助CPU,完成数据转运的工作…...
课题推荐——低成本地磁导航入门,附公式推导和MATLAB例程运行演示
地磁导航利用地球磁场的自然特性,通过感知磁场变化,帮助机器人或无人设备实现定位和导航。相比于 GPS、激光雷达等导航方法,地磁导航具有以下优势: 低成本:使用地磁传感器(如电子罗盘)ÿ…...
微信小程序学习之底部导航栏
首先,我们在app.json中添加4个页面, "pages": ["pages/index/index","pages/category/category","pages/cart/cart","pages/user/user"], 其次我们把8张图片放到imaes文件夹下, 图标可…...