兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统
- 作者:Fei Lin 1 ^{1} 1, Yonglin Tian 2 ^{2} 2, Tengchao Zhang 1 ^{1} 1, Jun Huang 1 ^{1} 1, Sangtian Guan 1 ^{1} 1, and Fei-Yue Wang 2 , 1 ^{2,1} 2,1
- 单位: 1 ^{1} 1澳门科技大学创新工程学院工程科学系, 2 ^{2} 2中科院自动化研究所复杂系统管理与控制国家重点实验室
- 论文标题:AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
- 论文链接:https://arxiv.org/pdf/2504.09583
主要贡献
- 提出AirVista-II系统:这是一个端到端的代理系统,用于使无人机(UAV)从被动的数据采集平台向主动的语义交互范式转变,实现了无人机在动态场景中的通用语义理解和推理。
- 设计自适应关键帧提取策略:针对长视频场景,提出了一种结合运动感知采样、聚类分析和模型引导选择的自适应关键帧提取策略。该策略能够有效地捕捉语义显著的帧,增强无人机对复杂动态场景的理解能力。
- 在多个公共航拍视频数据集上验证:在零样本(zero-shot)设置下,展示了系统在多样化无人机动态场景中的高准确性和描述质量,证明了其在实际应用中的潜力。
研究背景
- 无人机在动态环境中的重要性:
- 无人机在物流运输、灾难响应等动态环境中扮演着越来越重要的角色。
- 然而,目前的任务通常依赖于人类操作员监控航拍视频并做出决策,这种人机协作模式在效率和适应性方面存在显著限制。
- 语义理解任务的需求:
- 为了实现更高效的自主操作,无人机需要具备语义理解能力,不仅作为数据采集平台,还要能够进行环境的语义建模和自然语言交互,从而根据感知信息生成对人类操作指令的高级语义响应。
- 现有方法的局限性:
- 近年来,以大型语言模型(LLM)为代表的基础模型(FM)在具身智能领域展现了强大的自主性和领域适应性。
- 然而,现有方法通常缺乏显式的任务规划机制,导致响应可控性不稳定。此外,由于缺乏外部工具调用能力和协调多模块框架,在处理结构复杂和开放性任务时泛化能力有限。
研究方法
系统架构
AirVista-II系统由规划模块和执行模块组成。根据输入场景的时间长度,将动态场景分为三种类型:即时场景(单帧图像)、短视频(小于60秒)和长视频(大于等于60秒),分别对应不同的任务形式和执行策略。
规划模块
- 核心功能:基于LLaVA或GPT-4o的规划代理,将自然语言指令转化为结构化任务,并分派给下游执行代理。
- 处理流程:
- 如果查询缺乏明确的时间信息,则通过交互式细化模块更新查询。
- 对于语义模糊的查询,应用链式思考(CoT)模板将其分解为更具体的子问题。
- 根据提取的时间信息,使用FFmpeg工具从输入视频中检索图像帧或视频片段。
- 根据持续时间确定数据的模态标签(图像、短视频或长视频)。
执行模块
即时图像任务
- 处理方式:图像代理接收图像和用户查询,并调用AirVista工具生成答案。AirVista是一个专门针对无人机的多模态问答模型,能够进行细粒度的语义理解和3D空间推理。
短视频任务
- 关键帧提取:短视频代理首先使用OpenCV从短视频中提取6个均匀间隔的关键帧,形成一个3×2的时间网格图像。
- 推理过程:在网格提示的引导下,代理对网格和查询进行自我推理以产生答案。这种策略显著减少了计算开销,同时保留了时间上下文。
长视频任务
- 自适应关键帧提取策略:
- 运动感知采样:计算采样步长 s = ⌊ f ⋅ λ v ⌋ s = \left\lfloor \frac{f \cdot \lambda}{v} \right\rfloor s=⌊vf⋅λ⌋,其中 f f f 是帧率, v v v 是无人机的平均速度, λ \lambda λ 是期望的语义分辨率。这确保了无人机在采样帧之间至少移动 λ \lambda λ 米,平衡了覆盖范围和效率。
- 聚类分析:使用CLIP ViT-B/16提取高维语义嵌入,对不同数量的聚类进行评估,选择最优聚类数量。
- 模型引导选择:从每个聚类中选择最早时间戳的帧形成最终关键帧集,构建近方形网格图像。
- 推理过程:在网格提示的引导下,代理对网格和查询进行推理以生成答案。
实验
短视视频场景实验
CapERA-QA任务
- 任务描述:基于CapERA数据集构建内容总结问答任务,随机选择一个人类标注的字幕作为参考答案,并手动构建相应的问题。
- 评估方法:采用基于GPT的语义评估方法,结果显示准确率为75.6%,平均得分为3.703。这表明系统能够准确捕捉大多数航拍视频中的主要事件和动态语义。
- 可读性评估:采用多种主流英语可读性指标(如Gunning Fog Index、Dale–Chall Readability Formula等),统计结果显示生成答案的可读性较好。
ERA-QA任务
- 任务描述:基于ERA数据集构建开放性问答任务,包含运动理解、空间关系、时间关系和自由形式问题四种类型。
- 评估方法:比较基于LLaVA-1.6-34B和GPT-4o的短视频代理的性能,结果显示LLaVA-1.6-34B的准确率为66.5%,平均得分为3.715;GPT-4o的准确率为53.0%,平均得分为3.140。
长视频场景实验
- 任务描述:基于SynDrone数据集构建长视频问答任务,手动设计开放性问题以评估系统在长时间、多事件动态场景中的综合问答能力。
- 聚类评估:通过视觉分析聚类评估结果,选择最优聚类数量。实验结果表明,自适应关键帧提取策略能够根据场景复杂性动态选择不同数量的关键帧。
- 性能对比:与固定帧采样策略(如均匀采样6帧)相比,自适应关键帧提取策略更有效地捕捉长视频的关键语义内容,使代理能够生成完整准确的响应。
结论与未来工作
- 结论:
- AirVista-II系统通过自适应关键帧提取方法,有效提高了无人机对复杂动态内容的感知和推理性能,增强了无人机在动态环境中的通用语义理解和推理能力。
- 该系统在多个公共航拍视频数据集上的实验结果表明,其在零样本设置下具有高准确性和描述质量,展示了良好的实际应用潜力。
- 未来工作:
- 优化流程:将专注于优化流程以减少计算开销,特别是在长视频处理中,进一步提高系统的实时性和效率。
- 增强鲁棒性:通过更多的实验和测试,增强整个系统在复杂环境下的鲁棒性,确保其在实际应用中的稳定性和可靠性。
相关文章:
兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统
作者:Fei Lin 1 ^{1} 1, Yonglin Tian 2 ^{2} 2, Tengchao Zhang 1 ^{1} 1, Jun Huang 1 ^{1} 1, Sangtian Guan 1 ^{1} 1, and Fei-Yue Wang 2 , 1 ^{2,1} 2,1单位: 1 ^{1} 1澳门科技大学创新工程学院工程科学系, 2 ^{2} 2中科院自动化研究所…...
深入探索 OpenCV:从实时视频流到图像处理的实战指南
引言 在当今数字化时代,计算机视觉技术正逐渐成为推动科技发展的核心力量之一。从自动驾驶汽车到智能家居设备,从医疗影像诊断到工业自动化,计算机视觉的应用无处不在。而 OpenCV(Open Source Computer Vision Library࿰…...
Linux线程控制
POSIX线程库 与线程有关的函数构成了一个完整的系列,绝大多数函数的名字都是以“pthread_”打头的要使用这些函数库,要通过引入头文 <pthread.h>链接这些线程函数库时要使用编译器命令的“-lpthread”选项 创建线程 功能:创建⼀个新…...
软件设计师考试《综合知识》设计模式之——工厂模式与抽象工厂模式考点分析
软件设计师考试《综合知识》工厂模式与抽象工厂模式考点分析 1. 分值占比与考察趋势(75分制) 年份题量分值占总分比例核心考点2023111.33%抽象工厂模式适用场景2022222.67%工厂方法 vs 抽象工厂区别2021111.33%工厂方法模式结构2020111.33%简单工厂模式…...
携程旅行 酒店详情 token1004 分析 phantom-token
声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 部分python代码 这个网站有一个坑&am…...
QT——概述
<1>, Qt概述 Qt 是⼀个 跨平台的 C 图形⽤⼾界⾯应⽤程序框架 Qt ⽀持多种开发⼯具,其中⽐较常⽤的开发⼯具有:Qt Creator、Visual Studio、Eclipse. 一,Qt Creator 集成开发环境(IDE) Qt Creator 是⼀个轻量…...
uniapp-vue3项目中引入高德地图的天气展示
前言: uniapp-vue3项目中引入高德地图的天气展示 效果: 操作步骤: 1、页面上用定义我们的 当前天气信息:<view></view> 2、引入我们的map文件 <script setup>import amapFile from ../../libs/amap-wx.js …...
最新版VSCode通过SSH远程连接Ubuntu 16.04等旧版Linux的方法
根据官方文档Remote Development FAQ - Can I run VS Code Server on older Linux distributions?,自Visual Studio Code 1.99起,VSCode Remote - SSH Server由于运行库依赖更新,会无法连接到旧版Linux发行版上。但是好在官方在文档中还给了…...
Unity碰撞检测:射线与胶囊体投射/Layer(层)、LayerMask(遮罩层)
一、Physics碰撞检测 1.Physics.Raycast射线投射 Physics.Raycast 是 Unity 中用于执行射线检测(Raycasting)的方法。它允许你从一个点沿特定方向发射一条无形的“射线”,并检查这条射线是否与场景中的任何碰撞体相交。这个功能非常有用&am…...
浪潮云边协同:赋能云计算变革的强力引擎
在数字化浪潮以排山倒海之势席卷全球的当下,第五届数字中国建设峰会在福州盛大开幕。这场以“创新驱动新变革,数字引领新格局”为主题的行业盛会,宛如一座汇聚智慧与力量的灯塔,吸引了国内外众多行业精英齐聚一堂,共同…...
“傅里叶变换算法”来检测纸箱变形的简单示例
为了创建一个具有科技质感且能动态展示结果的纸箱变形检测傅里叶变换网页,下面将分别更新 HTML、CSS 和 JavaScript 文件。以下是更新后的代码: 1. HTML 文件 (index.html) <!DOCTYPE html> <html lang"zh-CN"> <head><…...
【SPIN】用Promela验证顺序程序:从断言到SPIN实战(SPIN学习系列--2)
你写了一段自认为“天衣无缝”的程序,但如何确保它真的没有bug?靠手动测试?可能漏掉边界情况;靠直觉?更不靠谱!这时候,Promela SPIN组合就像程序的“显微镜”——用形式化验证技术,…...
如何卸载并重新安装 Mozilla Firefox 浏览器
如果你在 Windows 上遇到现有的 Mozilla FireFox 安装问题,以下是重新安装 FireFox 的步骤。这可以帮助用户解决由于某些扩展或设置问题,或者不小心下载了令人讨厌的广告软件而导致的问题。虽然现在使用 Firefox 浏览器的用户在渐渐沦为小众群体,但是 Firefox 浏览器依然是最…...
Linux 后台运行的方法
Linux 后台运行的两种方法:screen 和 nohup 使用指南 如有错误,敬请指正 方法一:使用 screen 管理后台任务(推荐) 🔹 安装(如未安装) sudo apt install screen # Ubuntu/Debian …...
《无限暖暖》画质测评
《无限暖暖》作为一款采用虚幻5引擎打造的多平台畅玩、高自由度换装探索类RPG游戏,凭借其精美的画面、沉浸式操作和暖暖美丽坚毅的人设吸引了大量玩家。 在其中玩家可以通过做各样任务收集美好并感受到丰富的人生体验,暖暖所在的世界里有超多的NPC可以互…...
websocket简介与基本使用
websocket是什么 WebSocket 是一种基于 TCP 的全双工通信协议,允许客户端和服务器之间建立持久连接,实现实时、双向的数据传输。它是 HTTP 协议的补充,专为低延迟、高效率的实时通信设计。 核心特点 特性说明全双工通信客户端和服务器可以同时…...
面试题:请解释Java中的垃圾回收机制(Garbage Collection, GC),并讨论不同的垃圾回收算法及其优缺点
Java垃圾回收机制(GC) Java的垃圾回收机制负责自动管理内存,回收不再使用的对象以释放内存空间。GC通过以下步骤实现: 标记(Marking) :识别哪些对象是可达的,哪些是不可达的。清除…...
解决 Ubuntu 22.04 安装后启动卡死问题
最近在一台 PC 上安装了 Ubuntu 22.04 系统,但发现系统启动时出现问题:屏幕上出现一个旋转的小圈,旋转片刻后停止,系统无法正常进入桌面环境。经过一番排查,我找到了一种有效的解决方法,通过进入恢复模式并…...
线程的两种实现方式
线程的两种实现方式——内核支持线程(kernal Supported Thread, KST), 用户级线程(User Level Thread, ULT) 1. 内核支持线程 顾名思义,内核支持线程即为在内核支持下的那些线程,它们的创建&am…...
Python Bug 修复案例分析:asyncio 事件循环异常引发的程序崩溃 两种修复方法
在 Python 异步编程的工作中,asyncio库为我们提供了高效处理并发任务的强大工具。然而,asyncio在使用过程中也可能因为一些细节处理不当而引发 Bug。下面,我们就来深入分析一个因asyncio事件循环异常导致程序崩溃的典型案例。兴趣的友友可以借…...
TCP(传输控制协议)建立连接的过程
TCP(传输控制协议)建立连接的过程称为 三次握手(Three-Way Handshake)。这是为了确保通信双方能够可靠地建立连接,并同步初始序列号。以下是详细步骤: 三次握手过程(通俗比喻:打电话…...
(十九)Java集合框架深度解析:从基础到高级应用
一、集合框架概述 1.1 什么是集合框架 Java集合框架(Java Collections Framework, JCF)是Java语言中用于表示和操作集合的一套标准化体系结构。它提供了一组接口、实现类和算法,用于存储和操作对象组,解决了数组在存储对象时的诸多限制。 集合框架的主…...
数据结构与算法-线性表-单链表(Linked List)
1 线性表 1.2 单链表(Linked List) 顺序表在内存中是连续的进行存储,可以随机获取某个元素,但是在插入和删除元素的时候就非常不方便,需要移动很多相关的元素,链表就可以解决这个问题。 链表就是每个节点…...
Vue3学习(组合式API——生命周期函数基础)
目录 一、Vue3组合式API中的生命周期函数。 (1)各阶段生命周期涉及函数简单介绍。 <1>创建挂载阶段的生命周期函数。 <2>更新阶段的生命周期函数。 <3>卸载阶段的生命周期函数。 <4>错误处理的生命周期函数。 (2&…...
MySQL索引优化面试高频考点解析(附实战场景)
文章目录 当索引失效成为面试官的"送命题"(必看!)高频考点一:索引失效的七大死亡陷阱1. 隐式类型转换(血泪案例!)2. 函数操作毁所有 高频考点二:最左前缀原则的魔鬼细节组…...
三目云台20倍变焦智能监控技术
“三目云台20倍转动”通常指的是一种具备三目变焦功能和20倍光学变焦能力的云台摄像机。以下是对这一概念的详细解释: 一、三目变焦功能 三目云台摄像机通常配备“长、短、广”三组定焦镜头,每组镜头都有其独特的作用: 长焦镜头 ÿ…...
SQL注入---05--跨站注入
1 权限说明 select * from mysql.user; 这里的Y表示我前面的命令权限为root,n表示不支持root权限 导致结果: 如果为root的话,我就可操作这些命令并且可以进行跨数据库攻击,但是如果不是高权限root就无法执行这些操作 2 root权限…...
AAC 协议
1. ADTS(Audio Data Transport Stream)帧结构 在ADTS(Audio Data Transport Stream)帧结构中,“上面扩展28 bit”指的是ADTS固定头(adts_fixed_header())和ADTS可变头(adts_variable_header())各自包含的28位信息。 1.1 ADTS固定头(adts_fixed_header()) AAC 帧…...
HGDB企业版迁移到HGDB安全版
文章目录 环境文档用途详细信息 环境 系统平台:Linux x86-64 Red Hat Enterprise Linux 7 版本:4.5.8,6.0 文档用途 HGDB企业版数据库通过命令备份恢复,迁移到HGDB安全版中。 详细信息 1、环境介绍 1 IP 操作系统 cpux.x.65.10 …...
智慧化系统安全分析报告
智慧化系统的安全背景与现状 一、政策法规背景 (一)全球主要国家/地区政策对比 地区政策名称核心内容实施时间特点中国《生成式人工智能服务管理暂行办法》明确服务提供者责任,强调数据合法、隐私保护,禁止生成违法内容2023年8…...
概率相关问题
问题汇总 1. 贝叶斯定理(贝叶斯公式和全概率公式)2. 概率题2.1 随机发生器的概率为1/2 1. 贝叶斯定理(贝叶斯公式和全概率公式) 定义:在信息和条件有限的情况下,基于过去的数据,通过动态调整的…...
使用 GitDiagram 快速将 GitHub 仓库转换为交互式图表
前言 当面对 GitHub 上文件目录错综复杂的新项目,且你急需快速了解其系统设计或架构流程时,你可能会感到束手无策。今天大姚给大家分享一个开源利器 GitDiagram,它可以轻松将任何复杂的 GitHub 仓库转化为直观、交互式的图表,这对…...
AWS CloudHSM:金融级密钥安全管理实战,如何通过FIPS 140-2认证守护数据生命线?
数据泄露平均成本430万美元,加密漏洞成头号杀手!当《数据安全法》撞上金融科技合规,开发者如何用硬件安全模块(HSM)构建不可破解的密钥堡垒?本文揭秘AWS CloudHSM如何成为支付系统、电子病历、区块链的“数…...
自定义分区器-基础
什么是分区 在 Spark 里,弹性分布式数据集(RDD)是核心的数据抽象,它是不可变的、可分区的、里面的元素并行计算的集合。 在 Spark 中,分区是指将数据集按照一定的规则划分成多个较小的子集,每个子集可以独立…...
<C++> MFC自动关闭对话框(MessageBoxTimeout)
MFC自动关闭对话框(MessageBoxTimeout) 记录一下今天在界面开发中的解决方案。自动关闭对话框有两种方案: 1.使用定时器实现延迟关闭(DeepSeek方案) 提示框显示几秒后自动关闭,可以使用 SetTimer KillT…...
一个基于 Spring Boot 的实现,用于代理百度 AI 的 OCR 接口
一个基于 Spring Boot 的实现,用于代理百度 AI 的 OCR 接口 BaiduAIController.javaBaiduAIConfig.java在 application.yml 或 application.properties 中添加配置:application.yml同时,需要在Spring Boot应用中配置RestTemplate:…...
Python60日基础学习打卡D26
算圆形面积 错误代码 import mathdef calculate_circle_area(r):try:S math.pi * r**2except r<0:print("半径不能为负数")return S 正确代码 import mathdef calculate_circle_area(radius):try:if radius < 0:return 0return math.pi * radius…...
报销单业务笔记
文章目录 业务点业务点-对公对私业务点-多系统标志 特殊业务入参入参报文 出参出参报文中间的逻辑多对多关系 其他应该是整体成功还是可以部分成功这种多对多关多关系有没有优雅的判断方式 报销单是个通用场景,有通用逻辑,在此基础上进行适度定制&#x…...
小红书的评论区营销经验分享
在小红书等社交平台上采用“主账号提问小号解答”的营销策略,其核心作用是通过角色分工和场景化互动,降低用户对广告的抵触心理,同时提升内容的可信度和转化效率。以下是其底层逻辑和具体作用分析: 一、角色分工:制造…...
通义灵码 2.5.4 版【**编程智能体**】初体验
一、通义灵码安装 1.VSCode通义灵码插件安装 VSCode搜索lingma,出现Lingma-Alibaba,点击安装即可,安装完毕如下图所示。 可以看到右侧版本信息如下:alibaba-cloud.tongyi-lingma版本2.5.4上次更新时间2025-05-13, 11:02:16,安装…...
2025ICPC陕西省赛题解一
L. easy 每行选能选的最小的两个,注意处理奇数的情况。 #include <bits/stdc.h> #define x first #define y second #define int long longusing namespace std; typedef unsigned long long ULL ; typedef pair<int,int> PII ; typedef pair<lon…...
java方法的练习题
方法中对自定义类型的传递 package MethodParameter.MethodParameter03;public class MP03 {public static void main(String[] args) {Person p new Person();p.m_Age 100;p.m_Name "John";B b new B();b.test02(p);System.out.println(p.m_Age p.m_Name);} }…...
【在qiankun模式下el-dropdown点击,浏览器报Failed to execute ‘getComputedStyle‘ on ‘Window‘: parameter 1 is not o
在qiankun模式下el-dropdown点击,浏览器报Failed to execute ‘getComputedStyle’ on ‘Window’: parameter 1 is not of type ‘Element’ 错误 在qiankun模式下el-dropdown点击,浏览器报Failed to execute ‘getComputedStyle’ on ‘Window’: par…...
世界模型+大模型+自动驾驶 论文小汇总
最近看了一些论文,懒得一个个写博客了,直接汇总起来 文章目录 大模型VLM-ADVLM-E2EOpenDriveVLAFASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统快系统慢系统快慢结合 世界模型End-to-End Driving with Online Trajectory Evalu…...
elementUI如何动态增减表单项
设置prop的字段::prop"configs.${i}.platform" <template><el-dialogtitle"编辑配置":close-on-click-modal"false":before-close"beforeClose":visible.sync"visible"v-if"visible"class&q…...
vite运行只能访问localhost解决办法
1、找到package.json的scripts方法 2、然后指定 vite --host即可...
msf安卓远控木马手动捆绑正常apk
生成的安卓木马捆绑到正常的apk的apk中可以增强隐蔽性,有一定的过毒效果 这篇文章来讲解如何通过手动注入来实现apk的捆绑 工具:mt管理器 首先我们要明白原理:木马的payload存在于其dex文件中,将木马的payload注入到正常apk中&…...
【YOLO 系列】基于YOLO的道路坑洞检测识别系统【python源码+Pyqt5界面+数据集+训练代码】
前言 在传统的道路维护和管理中,道路坑洞的检测通常依赖人工巡查,这种方式不仅效率低下,容易出现漏检和误检的情况,而且在复杂的路况和恶劣的天气条件下,检测人员的安全也难以保障。而基于 YOLO 的道路坑洞检测系统&a…...
以项目的方式学QT开发(一)——超详细讲解(120000多字详细讲解,涵盖qt大量知识)逐步更新!
以项目的方式学QT开发 以项目的方式学QT开发 P1 QT介绍 1.1 QT简介 1.2 QT安装 1.2.1 Windows QT安装 1.2.2 QT Creator 使用基本介绍 P2 C基础 2.1 命名空间 2.1.1 命名空间作用 2.1.2 自定义命名空间 2.2 从C语言快速入门 2.2.1 输入输出 2.2.2 基…...
大模型学习
ChatTempate,Completion Only,NEFTune,SFTTrainer 微调技术 (背景:预训练后的大模型只会根据上文,输出下文,但效果不好,要微调帮他更好理解) ChatTemplate 是一种用于定…...