中科院自动化研究所通用空中任务无人机!基于大模型的通用任务执行与自主飞行
-
作者: Ji Zhao and Xiao Lin
-
单位:中科院自动化研究所
-
论文标题:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
-
论文链接:https://arxiv.org/pdf/2503.08302
主要贡献
-
硬件-软件协同设计框架:提出了一种针对无人机(UAV)的硬件-软件协同设计框架,通过边缘计算平台实现了14B参数的大型语言模型(LLM)的高效推理(5-6 tokens/second),同时保持了220W的峰值功耗。
-
双向认知架构:设计了一种双向认知架构,将LLM的慢速深思熟虑规划(任务规划)与快速反应控制(状态估计、建图、避障和运动规划)相结合,实现了任务规划与反应控制的协同。
-
任务规划和场景理解验证:通过原型系统验证了LLM/VLM在通信受限环境中的任务规划和场景理解能力,如甘蔗监测、电网巡检、矿井隧道勘探和生物观测等应用,展示了系统在真实世界场景中的泛化能力。
研究背景
-
无人机的局限性:尽管无人机在农业、电网巡检、矿业和生物观测等领域有广泛应用,但现有的无人机系统大多局限于执行预定义任务,缺乏灵活性和适应性。
-
大型语言模型的潜力:随着LLM和视觉-语言模型(VLM)的发展,无人机有望基于开放式语言指令执行任务并与开放集对象交互,但目前的无人机系统由于硬件和软件的限制,难以实现这一目标。
-
挑战:LLM具有庞大的参数规模和对计算资源的高需求,而无人机受到重量、功耗和尺寸的限制。此外,如何将LLM的慢速推理能力与无人机的快速反应能力有效结合也是一个关键问题。
研究方法
硬件设计
-
智能计算域:无人机配备了强大的计算模块,包括16核5GHz的Intel CPU、12核2.5GHz的ARM处理器以及双层GPU架构,能够提供高达10 TFLOPS的通用计算能力和40 TOPS(Int8)的嵌入式计算能力,支持运行14B参数的DeepSeek-R1 LLM。
-
能源供应域:电池舱和电源系统能够为智能计算域提供1000Wh的峰值功耗,支持大模型连续运行4小时,同时为飞行域提供22000WmAh(700Wh)的电力。
-
飞行域:飞行控制系统和螺旋桨能够提供足够的推力,最大起飞重量可达18kg。
-
通信与GPS域:配备2×2 MIMO 5G通信模块,理论带宽2Gbps,实际带宽400Mbps,RTK模块提供厘米级导航精度,视频传输模块传输距离可达30km。
-
感知域:配备14个摄像头、6个ToF摄像头、4D LiDAR和IMU,能够实现高精度的环境感知和障碍物检测。
-
载荷域:配备多种载荷,如红外热像仪、激光测距仪、FPV相机、三轴云台、探照灯、夜视设备等,以满足不同任务需求。
双向认知架构
-
任务规划阶段:通过向LLM(如DeepSeek-R1)提供任务描述,生成详细的任务计划,并由人类操作员审核确认。LLM利用其常识和推理能力,即使提示中未提及某些细节,也能生成合理的计划。
-
任务执行阶段:无人机自主执行任务。感知模块检测障碍物,状态估计和建图模块提供无人机的位姿和局部地图,VLM生成图像的场景描述。这些信息与地理信息和无人机的动作集一起,形成提示输入LLM,作为运动规划器,选择动作并生成航点,输入飞行控制单元(FCU)以控制无人机。
提示设计框架
-
提出了一个两阶段的提示设计框架,将LLM的推理能力与传统无人机自主模块(如状态估计、运动规划、控制等)进行整合,实现了任务规划与反应控制之间的双向信息流。
实验
任务定义:
-
甘蔗监测:利用无人机的高精度测量和感知能力,对甘蔗的倒伏情况进行监测,通过快思维和慢思维系统的协同,自主识别甘蔗生长状态,及时检测倒伏等问题。
-
电网巡检:无人机实现自主飞行跟踪和缺陷识别,快思维系统负责避障和路径规划,慢思维系统对巡检数据进行深入分析,识别潜在缺陷。
-
矿井隧道勘探:利用LiDAR SLAM技术进行精确导航和建图,快思维系统提供实时感知和路径规划能力,慢思维系统进行综合分析和处理,使无人机能够自主穿越复杂矿井环境。
-
鲸鱼表面生物观测:通过实时多传感器融合保持良好的定位精度,慢思维系统结合历史潜水模式和海洋数据预测鲸鱼浮出水面的区域。
实验结果
- 任务规划结果:
-
对于上述四种应用,LLM能够生成合理的任务规划,包括任务目标、准备阶段、任务规划等。
-
例如,在甘蔗监测任务中,LLM建议选择靠近甘蔗田的开阔区域作为起飞点;在矿井隧道勘探任务中,LLM注意到矿井隧道内没有GPS信号,即使在提示中没有提及这一点。
-
- 场景理解结果:
-
使用真实世界的边缘案例图像测试了机载VLM的场景理解能力。
-
在甘蔗监测和电网巡检任务中,VLM成功检测到甘蔗倒伏情况和电网潜在危险。
-
实验结果表明,空中智能代理有潜力替代人类执行危险或单调的任务。
-
结论与未来工作
- 结论:
-
提出的框架通过优化硬件设计实现了14B参数LLM的边缘部署,克服了传统功耗和计算能力的限制。
-
提出的两阶段提示设计框架实现了LLM引导的任务规划与低级反应能力之间的有效交互。
-
在需要环境意识和操作精度的关键任务中,该框架表现出有效性。
-
实验表明,LLM推理和反应模块之间的双向信息流可以应用于具有特定设计方法的通用任务,且机载LLM运行对无人机(尤其是安全关键操作)有益。
-
- 未来工作:
-
进一步减轻无人机重量,将当前使用的铝合金框架替换为碳纤维等更轻的材料。
-
通过真实飞行测试进一步验证系统的有效性,并将硬件平台开源。
-
相关文章:
中科院自动化研究所通用空中任务无人机!基于大模型的通用任务执行与自主飞行
作者: Ji Zhao and Xiao Lin 单位:中科院自动化研究所 论文标题:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models 论文链接:https://arxiv.org/pdf/2503.08302 主要贡献 硬件-软件协同设计框…...
DOM知识点
DOM(Document Object Model)即文档对象模型,是用于表示和操作HTML、XML文档的编程接口。以下是关于DOM的一些知识点总结: 基本概念 • DOM将文档解析为一个由节点(Node)组成的树形结构,每个节…...
设备预测性维护的停机时间革命:中讯烛龙如何用AI重构工业设备管理范式
在工业4.0的智能化浪潮中,非计划停机每年吞噬企业3%-8%的产值。中讯烛龙预测性维护系统通过多模态感知矩阵分布式智能体的创新架构,实现设备健康管理的范式跃迁,帮助制造企业将停机时间压缩70%以上。本文将深度解析技术实现路径与行业级实践方…...
JMeter 教程:使用 HTTP 请求的参数列表发送 POST 请求(form 表单格式)
目录 ✅ 教程目的 🛠️ 准备工作 📄 操作步骤 第一步:新建测试计划 第二步:添加 HTTP 请求 第三步:添加参数列表(表单参数) 第四步:添加结果查看器 第五步:运行测…...
**HTTP/HTTPS基础** - URL结构(协议、域名、端口、路径、参数、锚点) - 请求方法(GET、POST) - 请求头/响应头 - 状态码含义
# HTTP/HTTPS基础知识点详解 ## 1. URL结构 ### 协议部分 - http:// - 超文本传输协议,明文传输 - https:// - 安全的超文本传输协议,使用SSL/TLS加密 - 爬虫注意点:HTTPS网站有TLS指纹(JA3指纹),可被用于检测爬虫 ### 域名部分…...
2025抓包工具Reqable手机抓包HTTPS亲测简单好用-快速跑通
前言 自安卓7.0高版本系统不在信任用户证书,https抓包方式市面查找方法太过复杂手机要root等,前置条件要求太高太复杂,看的头痛,今天一台电脑按步骤操作完即可抓包https,给大家搞定抓包https问题。支持直接编辑修改请求参…...
大模型在胫骨平台骨折预测及治疗方案制定中的应用研究
目录 一、引言 1.1 研究背景与目的 1.2 国内外研究现状 1.3 研究方法和创新点 二、大模型预测胫骨平台骨折的原理和方法 2.1 相关大模型介绍 2.2 数据收集与预处理 2.3 模型训练与优化 2.4 模型评估指标 三、术前预测与手术方案制定 3.1 骨折类型和严重程度预测 3.…...
AI图像处理之ComfyUI节点(二)
一、Load Checkpoint节点 功能:用于加载预训练的大模型,如Stable Diffusion等 参数: chechkpoint:选择加载的模型文件(.ckpt或.satetensors格式) MODEL:输出用于图像扩散预测的UNet模型 CLIP&…...
异常日志规范
目录 一、错误码 二、异常处理 三、日志规约 一、错误码 强制: 1、错误码的制订原则:快速溯源、沟通标准化。 1)错误码必须能够快速知晓错误来源,可快速判断是谁的问题。 2)错误码必须能够清晰地比对(…...
pycharm连接github(详细步骤)
【前提:菜鸟学习的记录过程,如果有不足之处,还请各位大佬大神们指教(感谢)】 1.先安装git 没有安装git的小伙伴,看上一篇安装git的文章。 安装git,2.49.0版本-CSDN博客 打开cmd(…...
UESplineThicken节点
SplineThicken 函数用来使非常薄的多边形在渲染时显示为略厚。对于线缆、头发、草和其他此类对象,这种效果非常理想。 SplineThicken节点 该节点始终朝向摄像机 可以控制模型前后宽度 可以连接到wpo上制作特效效果 参考链接 https://dev.epicgames.com/document…...
【C++】map和set的使用
📌 个人主页: 孙同学_ 🔧 文章专栏:C 💡 关注我,分享经验,助你少走弯路 文章目录 1. 序列式容器和关联式容器1.1 序列式容器1.2 关联式容器 2. set系列的使用2.1 set和multiset的参考文档2.2 se…...
MCP实战:在扣子空间用扣子工作流MCP,一句话生成儿童故事rap视频
扣子最近迎来重要更新,支持将扣子工作流一键发布成MCP,在扣子空间里使用。 这个功能非常有用,因为我有很多业务工作流是在扣子平台上做的,两者打通之后,就可以在扣子空间里直接通过对话方式调用扣子工作流了࿰…...
c/c++的opencv直方图初识
C/C OpenCV中的图像直方图:零基础入门指南 📊 大家好!今天我们来聊聊图像处理中一个非常基础且重要的概念——直方图(Histogram)。如果你是OpenCV新手,或者对直方图感觉有点迷糊,别担心,这篇文章会用最简单…...
Spring Boot 与 RabbitMQ 的深度集成实践(一)
引言 ** 在当今的分布式系统架构中,随着业务复杂度的不断提升以及系统规模的持续扩张,如何实现系统组件之间高效、可靠的通信成为了关键问题。消息队列作为一种重要的中间件技术,应运而生并发挥着举足轻重的作用。 消息队列的核心价值在于其…...
Android动态音频柱状图可视化解析:从原理到实现
Android动态音频柱状图可视化解析:从原理到实现 一、整体架构设计二、核心组件设计三、核心代码实现四、交互设计与用户体验五、性能优化与问题解决一、整体架构设计 Android动态音频柱状图可视化解析 在移动应用开发中,音频可视化是增强用户体验的重要手段。无论是音乐播放器…...
vue3大事件项目
这周写完了vue3的大事件项目,从中学到了很多东西,并且解決了一部分bug,現在就和大家分享一下我遇到的问题并且是如何解決的 1. QuillEditor 的 v-model 用法错误 先讲一下quilleditor富文本的基本使用方法: 1.安裝quill依賴&am…...
MapReduce-WordCount实现按照value降序排序、字符小写、识别不同标点
要求: 输入文件的按照空格、逗号、点号、双引号等分词 输入文件的大写字母全部换成小写 文件输出要求按照value值降序排序 Hadoop给的wordcount示例代码以及代码理解 基于map reduce的word count个人理解:输入的文件经过map reduce框架处理后&#…...
c++线段树之单点修改区间最大子段和-----P4513 小白逛公园
题目大意 单点修改查询区间最大字段和 解题思路 如果线段树节点存储的是‘区间最大子段和’,如何合并? 简单的加法或求极值都不行,仔细分析可得,父节点最大字段和可能为: 左子树最大子段和右子树最大子段和左子树最…...
[Java实战]Spring Boot整合Elasticsearch(二十六)
[Java实战]Spring Boot整合Elasticsearch(二十六) 摘要:本文通过完整的实战演示,详细讲解如何在Spring Boot项目中整合Elasticsearch,实现数据的存储、检索和复杂查询功能。包含版本适配方案、Spring Data Elasticsea…...
【深度学习新浪潮】大模型在哪些垂域已经有比较好的落地?
AI大模型在多个垂直领域已实现显著落地,以下结合可验证案例与行业数据展开说明: 一、医疗健康:精准诊断与个性化治疗 呼吸系统疾病诊断 国家呼吸医学中心研发的LungDiag模型,基于公开临床数据集训练,在预印本研究中对肺炎、肺癌等10种疾病的辅助诊断准确率达92%。医联Med…...
软件测试全攻略:从概念到实践
目录 测试指南针--概念篇 1. 什么是软件测试? 2. 软件测试和软件开发的关系是什么? 3. 测试需要哪些能力? 4. 测试流程是什么样的? 5. 什么是单元测试和集成测试? 6. 软件的生命周期是什么样的? 需求…...
linux hungtask detect机制分析
1,机制概述 hungtask detect 是 Linux 内核用于检测长时间阻塞("hung")任务的机制,主要针对因死锁、死循环或资源竞争导致无法调度的任务 触发条件:任务在 TASK_UNINTERRUPTIBLE 状态持续超过预设阈值…...
影刀处理 Excel:智能工具带来的高效变革
1. 高效的数据处理能力 1.1 快速读取与写入数据 影刀在处理 Excel 数据时展现出显著的读取与写入速度优势。传统方法处理大型 Excel 文件时,读取速度可能仅为每秒 100 行左右,而影刀通过优化底层代码和采用高效的文件解析算法,读取速度可达…...
2021ICPC四川省赛个人补题ABDHKLM
Dashboard - The 2021 Sichuan Provincial Collegiate Programming Contest - Codeforces 过题难度: A K D M H B L 铜奖 5 594 银奖 6 368 金奖 8 755 codeforces.com/gym/103117/problem/A 模拟出牌的过程,打表即可 // Code Start Here int t…...
HarmonyOS 影视应用APP开发--配套的后台服务go-imovie项目介绍及使用
网上有小伙伴对影视应用感兴趣,也想搞个自己的免费观影APP玩玩儿。前期博主开源的有uniapp版本和harmonyOS原生版本影视客户端,但是对博主开源的这个影视后台接口服务不太了解,不知道怎么用起来。这里总结介绍下该go-imove后台接口服务项目介…...
JAVA SE 多线程(上)
文章目录 📕1. Thread类及常见方法✏️1.1 创建线程✏️1.2 Thread 的常见构造方法✏️1.3 Thread 的几个常见属性✏️1.4 启动一个线程---start()✏️1.5 中断一个线程---interrupt()✏️1.6 等待一个线程---join()✏️1.7 获取当前线程引用✏️1.8 休眠当前线程 &…...
基于Bootstrap 的网页html css 登录页制作成品
目录 前言 一、网页制作概述 二、登录页面 2.1 HTML内容 2.2 CSS样式 三、技术说明书 四、页面效果图 前言 Bootstrap是一个用于快速开发Web应用程序和网站的前端框架,由Twitter的设计师Mark Otto和Jacob Thornton合作开发。 它基于HTML、CSS和JavaScri…...
AUTOSAR图解==>AUTOSAR_SRS_Transformer
AUTOSAR Transformer 详解 基于AUTOSAR标准的Transformer组件技术解析 目录 1. AUTOSAR Transformer 概述 1.1 Transformer的作用1.2 Transformer在AUTOSAR中的位置2. Transformer架构设计 2.1 整体架构2.2 类结构设计2.3 交互流程3. Transformer类型与实现 3.1 SOME/IP Transf…...
iOS APP启动页及广告页的实现
iOS APP启动页及广告页的实现涉及UI布局、数据加载、倒计时控制、广告跳转等多个关键环节。以下是我的一些使用心得: 1. UI实现方案 双Window方案 原理:同时创建两个Window,主Window位于底层,广告Window覆盖在其上。通过切换mak…...
图绘Linux:基础指令脉络阁
目录 Linux命令行介绍 目录操作 ls 目录所含文件信息 ls 常用选项 pwd 在那个目录下 cd 进入目录 mkdir 创建目录 文件操作 touch 创建普通文件 echo向文件写入 cat 输出文件内容 cp 拷贝文件/目录 mv剪切重命名 rm 删除文件/目录 查找 * 匹配符 man 查找指令 …...
数字格式化库 accounting.js的使用说明
accounting.js 是一个用于格式化数字、货币和金额的轻量级库,特别适合财务和会计应用。以下是其详细使用说明: 安装与引入 通过 npm 安装: bash 复制 下载 npm install accounting 引入: javascript 复制 下载 const accounting …...
ngx_http_proxy_protocol_vendor_module 模块
一、前置要求 启用 PROXY 协议 在 listen 指令中添加 proxy_protocol 参数,例如: server {listen 80 proxy_protocol;listen 443 ssl proxy_protocol;… }商业订阅 本模块仅在 Nginx 商业版中提供。 二、示例配置 http {# 将 GCP 的 PSC 连接 ID 添…...
C++11-(2)
文章目录 (一)C11新增功能1.1 引用折叠1.1.1 在模板中使用引用折叠的场景1.1.2 引用折叠是如何实现的 1.2 完美转发1.3 lambda表达式语法1.3.1 定义1.3.2 lambda的使用场景1.3.3 捕捉列表1.3.4 mutable语法1.3.5 lambda的原理 (一)…...
LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项
LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项 第 一 题 - - - 移 除 元 素方 法 一 - - - 双 重 循 环方 法 二 - - - 双 指 针方 法 三 - - - 相 向 双 指 针(面 对 面 移 动) 第 二 题 - - -…...
QT6 源(106):阅读与注释重要的基类控件 QWidget,这是其精简版,完整注释版为篇 37
(1)原篇幅 37 为最开始整理,整理的不是太完善。重点不突出。故重新整理,但删除了大量的注释,重在突出本 QWidget类的内部逻辑,更易观察其包含了哪些内容。至于不理解的成员函数与属性,内容已不太…...
【Bluedroid】蓝牙HID DEVICE错误报告处理全流程源码解析
本文基于Android蓝牙协议栈代码,深入解析HID设备在接收非法指令(如无效的SET_REPORT)时的错误处理全流程,涵盖错误映射、协议封装、传输控制三大核心模块。重点剖析以下机制: HID协议规范错误码的动态转换策略 控制通…...
Day29 类的装饰器
类也有修饰器,他的逻辑类似:接收一个类,返回一个修改后的类。例如 添加新的方法或属性(如示例中的 log 方法)。修改原有方法(如替换 init 方法,添加日志)。甚至可以返回一个全新的类…...
学习黑客Active Directory 入门指南(二)
Active Directory 入门指南(二):深入逻辑结构与物理组件 🌳🏢 大家好!欢迎回到 “Active Directory 入门指南” 系列的第二篇。在上一篇中,我们初步认识了Active Directory,了解了其…...
为什么el-select组件在下拉选择后无法赋值
为什么el-select组件在下拉选择后无法赋值 https://blog.csdn.net/ZHENGCHUNJUN/article/details/127325558 这个链接解决了大模型无法解决的问题 大模型能够写基础且高级一些的代码,但是遇到再深入一些的问题,还是得问百度。对于我这种小白来说问题原因…...
FreeRTOS的学习记录(临界区保护,调度器挂起与恢复)
临界区 在 FreeRTOS 中,临界区(Critical Section) 是指程序中一段必须以原子方式执行的代码区域,在此区域内不允许发生任务切换或中断干扰,以保护共享资源或执行关键操作。FreeRTOS 提供了多种机制来实现临界区&#…...
给个人程序加上MCP翅膀
背景 最近MCP这个词真是到处都是,看起来特别高大上。我平时没事的时候也一直在关注这方面的技术,知道它是怎么一回事,也懂该怎么去实现。但可惜一直抽不出时间来自己动手搞一个MCP服务。网上关于MCP的教程一搜一大把,但基本上都是…...
2023年河南CCPC(ABCEFHK)
文章目录 2023河南CCPCA. 小水獭游河南(字符串)B. Art for Rest(数组切割)C. Toxel与随机数生成器(水)E. 矩阵游戏(dp)F. Art for Last(区间最小差分)H. Travel Begins(数学思维)K. 排列与质数(规律)总结 2023河南CCPC A. 小水獭…...
【 Redis | 实战篇 秒杀优化 】
目录 前言: 1.分布式锁 1.1.分布式锁的原理与方案 1.2.Redis的String结构实现分布式锁 1.3.锁误删问题 1.4.锁的原子性操作问题 1.5.Lua脚本解决原子性问题 1.6.基于String实现分布式锁存在的问题 1.7.Redisson分布式锁 2.秒杀优化 3.秒杀的异步优化 3.1…...
【Spring】核心机制:IOC与DI深度解析
目录 1.前言 2.正文 2.1三层架构 2.2Spring核心思想(IOC与AOP) 2.3两类注解:组件标识与配置 2.3.1五大类注解 2.3.1.1Controller 2.3.1.2Service 2.3.1.3Repository 2.3.1.4Configuration 2.3.1.5Component 2.3.2方法注解&#x…...
1-机器学习的基本概念
文章目录 一、机器学习的步骤Step1 - Function with unknownStep2 - Define Loss from Training DataStep3 - Optimization 二、机器学习的改进Q1 - 线性模型有一些缺点Q2 - 重新诠释机器学习的三步Q3 - 机器学习的扩展Q4 - 过拟合问题(Overfitting) 一、…...
ARM A64 STR指令
ARM A64 STR指令 1 STR (immediate)1.1 Post-index1.1.1 32-bit variant1.1.2 64-bit variant 1.2 Pre-index1.2.1 32-bit variant1.2.2 64-bit variant 1.3 Unsigned offset1.3.1 32-bit variant1.3.2 64-bit variant 1.4 Assembler symbols 2 STR (register)2.1 32-bit varia…...
虚幻引擎5-Unreal Engine笔记之`GameMode`、`关卡(Level)` 和 `关卡蓝图(Level Blueprint)`的关系
虚幻引擎5-Unreal Engine笔记之GameMode、关卡(Level) 和 关卡蓝图(Level Blueprint)的关系 code review! 文章目录 虚幻引擎5-Unreal Engine笔记之GameMode、关卡(Level) 和 关卡蓝图(Level B…...
软件工具:批量图片区域识别+重命名文件的方法,发票识别和区域选择方法参考,基于阿里云实现
基于阿里云的批量图片区域识别与重命名解决方案 图像识别重命名 应用场景 企业档案管理:批量处理扫描的合同、文件等图片,根据合同编号、文件标题等关键信息重命名文件医疗影像处理:识别X光、CT等医学影像中的患者ID、检查日…...
.NET外挂系列:1. harmony 基本原理和骨架分析
一:背景 1. 讲故事 为什么要开这么一个系列,是因为他可以对 .NET SDK 中的方法进行外挂,这种技术对解决程序的一些疑难杂症特别有用,在.NET高级调试 领域下大显神威,在我的训练营里也是花了一些篇幅来说这个…...