当前位置: 首页 > news >正文

使用零样本LLM在现实世界环境中推广端到端自动驾驶——论文阅读

《Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs》2024年12月发表,来自纽约stony brook大学、UIC和桑瑞思(数字化医疗科技公司)的论文

        传统的自动驾驶方法采用模块化设计,将任务分解为子任务。相比之下,端到端自动驾驶直接从原始传感器数据中输出动作,避免了错误累积。然而,训练端到端模型需要一个全面的数据集;否则,该模型表现出较差的泛化能力。最近,大型语言模型(LLM)已被应用于增强端到端驱动模型的泛化能力。大多数研究以开环方式探索LLM,将输出动作与没有来自现实世界的直接反馈的专家的动作进行比较,而另一些研究仅在模拟中检查闭环结果。本文提出了一种高效的架构,将多模态LLM集成到在现实环境中闭环设置下运行的端到端驾驶模型中。在我们的架构中,LLM定期处理原始传感器数据以生成高级驾驶指令,有效地指导端到端模型,即使速度比原始传感器数据慢。这种架构放宽了LLM的延迟和推理质量之间的权衡。它还允许我们从各种LLM中进行选择,以改进高级驾驶指令并最大限度地降低微调成本。因此,我们的架构降低了数据收集要求,因为LLM不直接输出操作;我们只需要训练一个简单的模仿学习模型来输出动作。在我们的实验中,现实世界环境中端到端模型的训练数据仅由一个交通锥的简单障碍物配置组成,而测试环境更复杂,包含放置在不同位置的多个障碍物。实验表明,即使不微调LLM,所提出的架构也提高了端到端模型的泛化能力。

研究背景与问题
  • 传统自动驾驶方法:采用模块化设计(感知、预测、规划、控制),存在误差累积和中间标签依赖问题。

  • 端到端自动驾驶:直接从传感器数据输出动作,避免模块化设计的缺陷,但严重依赖大量训练数据,泛化能力不足。

  • LLMs的潜力:大型语言模型(LLMs)在多模态理解和推理任务中表现出色,但现有研究多局限于开放环路或模拟环境,且需微调模型,难以直接应用于真实世界的闭环场景。


 

核心贡献
  1. 新型架构设计

    • 双组件架构:端到端模型(轻量级神经网络)负责实时动作输出(转向、油门),LLM定期生成高级指令(如“左转”“右转”)。

    • 零样本LLM应用:无需微调LLM,通过思维链(CoT)提示工程引导LLM生成指令,降低数据需求和计算成本。

    • 异步协作:LLM以较低频率生成指令,端到端模型缓存指令并实时执行,解决LLM推理延迟问题。

  2. 实验验证

    • 训练环境:仅包含单一障碍物(锥桶)的简单场景。

    • 测试环境:复杂场景(多障碍物、动态物体、光照变化)。

    • 结果

      • 端到端模型单独测试:成功率40%(复杂场景泛化能力弱)。

      • LLM+端到端模型:最佳组合(LLaVA-LLaMA2-13B + ViT)成功率提升至83%,ChatGPT-4o等模型表现次之(75%)。

      • 动态障碍测试:LLaVA-LLaMA2在移动车辆场景中成功率100%,ChatGPT-4o在复杂混合场景中表现较差(33%)。

  3. 关键优势

    • 降低数据需求:仅需简单场景的少量训练数据。

    • 无需LLM微调:通过提示工程激发LLM的泛化能力。

    • 实时性保障:端到端模型运行于边缘设备(如手机),弥补LLM的延迟问题。


局限性
  1. 环境敏感性问题

    • 强逆光、地面反射等复杂光照条件下,LLM可能无法正确识别障碍物(如附录D.1示例)。

    • 动态障碍物(如行人、车辆)的长期轨迹预测能力有限。

  2. 提示工程依赖

    • 需针对任务设计精细的CoT提示,通用性受限于LLM的上下文长度和理解能力。

  3. 硬件限制

    • 本地部署的LLM(如LLaVA)依赖高性能GPU,云端模型(如ChatGPT-4o)存在网络延迟风险。


未来方向
  1. 鲁棒性提升

    • 结合多模态传感器(激光雷达、雷达)增强环境感知。

    • 优化LLM的视觉理解能力,减少光照变化的影响。

  2. 提示工程自动化

    • 开发自适应提示生成机制,降低人工设计成本。

  3. 边缘计算优化

    • 压缩LLM模型,实现本地高效推理(如量化、蒸馏)。

  4. 安全性与伦理

    • 研究LLM决策的可解释性,确保其在关键场景中的可靠性。


学术与实践意义
  • 学术价值:首次在真实闭环环境中验证LLM与端到端自动驾驶的协同效应,为零样本LLM的应用提供新范式。

  • 工业应用:为低成本、低数据依赖的自动驾驶系统开发提供可行方案,尤其适用于特定场景(物流、园区交通)。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

相关文章:

使用零样本LLM在现实世界环境中推广端到端自动驾驶——论文阅读

《Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs》2024年12月发表,来自纽约stony brook大学、UIC和桑瑞思(数字化医疗科技公司)的论文。 传统的自动驾驶方法采用模块化设计,将任务…...

多视图密集对应学习:细粒度3D分割的自监督革命

原文标题:Multi-view Dense Correspondence Learning (MvDeCor) 引言 在计算机视觉与图形学领域,3D形状分割一直是一个基础且具有挑战性的任务。如何在标注稀缺的情况下,实现对3D模型的细粒度分割?近期,斯坦福大学视觉…...

【论文阅读】——Articulate AnyMesh: Open-Vocabulary 3D Articulated Objects Modeling

文章目录 摘要一、介绍二、相关工作2.1. 铰接对象建模2.2. 部件感知3D生成 三、方法3.1. 概述3.2. 通过VLM助手进行可移动部件分割3.3. 通过几何感知视觉提示的发音估计3.4. 通过随机关节状态进行细化 四、实验4.1. 定量实验发音估计设置: 4.2. 应用程序 五、结论六、思考 摘要…...

Docker Compose 的详细使用总结、常用命令及配置示例

以下是 Docker Compose 的详细使用总结、常用命令及配置示例,帮助您快速掌握这一容器编排工具。 一、Docker Compose 核心概念 定位:用于定义和管理多容器 Docker 应用,通过 YAML 文件配置服务、网络、卷等资源。核心概念: 服务 …...

2025.05.08-得物春招研发岗-第三题

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 03. 矩阵魔法变换 问题描述 A先生是一位著名的魔法师,他最近发明了一种特殊的矩阵魔法。这种魔法可以同时改变矩阵中特定区域内所有元素的值。 A先生有一个 n m n \times m...

【Spring AI 实战】基于 Docker Model Runner 构建本地化 AI 聊天服务:从配置到函数调用全解析

【Spring AI 实战】基于 Docker Model Runner 构建本地化 AI 聊天服务:从配置到函数调用全解析 前沿:本地化 AI 推理的新范式 随着大语言模型(LLM)应用的普及,本地化部署与灵活扩展成为企业级 AI 开发的核心需求。Do…...

【数据机构】2. 线性表之“顺序表”

- 第 96 篇 - Date: 2025 - 05 - 09 Author: 郑龙浩/仟墨 【数据结构 2】 文章目录 数据结构 - 2 -线性表之“顺序表”1 基本概念2 顺序表(一般为数组)① 基本介绍② 分类 (静态与动态)③ 动态顺序表的实现**test.c文件:****SeqList.h文件:****SeqList.c文件:** 数据结构 - 2 …...

Django ORM: values() 和 annotate() 方法详解

1. values()方法 1.1 基本概念 values()方法用于返回一个包含字典的QuerySet,而不是模型实例。每个字典表示一个对象,键对应于模型字段名称。 1.2 基本用法 # 获取所有书籍的标题和出版日期 from myapp.models import Bookbooks Book.objects.value…...

数据结构篇-二叉树

抽象定义CFG文法具体表示基本操作性质 抽象定义 二叉树是一个抽象的数学概念。它的定义是递归的 一棵二叉树可以是一个外部节点,一棵二叉树可以是内部节点,连接到一对二叉树,分别是它的左子树,和右子树。 这个抽象定义描述了二…...

前端面试每日三题 - Day 29

这是我为准备前端/全栈开发工程师面试整理的第29天每日三题练习: ✅ 题目1:Web Components技术全景解析 核心三要素 Custom Elements(自定义元素) class MyButton extends HTMLElement {constructor() {super();this.attachShado…...

Java设计模式之抽象工厂模式:从入门到精通

一、抽象工厂模式概述 抽象工厂模式(Abstract Factory Pattern)是一种创建型设计模式,它提供了一种创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类。 1.1 专业定义 抽象工厂模式定义了一个工厂接口,用于创建一系列相关或依赖的对象,客户端通过调用抽象工…...

Rust中记录日志:fast_log

在Rust程序中记录日志,可以使用fast_log。 根据fast_log 的介绍,这是一个性能非常高的日志实现,还支持文件追加模式、压缩、切分与回滚等操作。 而且,这个库记录日志是异步的,即不会因为日志而影响程序的运行。只有当…...

构筑芯片行业的“安全硅甲”

在半导体行业,数据就是生命线。一份芯片设计图纸的泄露,可能让企业数亿研发投入付诸东流;一段核心代码的外传,甚至可能影响国家产业安全。然而,现实情况却是——许多芯片企业的数据防护,仍处于“裸奔”状态…...

C++ Dll创建与调用 查看dll函数 MFC 单对话框应用程序(EXE 工程)改为 DLL 工程

C Dll创建 一、添加 DllMain&#xff08;必要&#xff09; #include <fstream>void Log(const char* msg) {std::ofstream f("C:\\temp\\dll_log.txt", std::ios::app);f << msg << std::endl; }BOOL APIENTRY DllMain(HMODULE hModule, DWORD u…...

使用智能表格做FMEDA

一、优点 使用智能表格替代excel做FMEDA具备以下优势&#xff1a; 减少维护成本&#xff08;数据库关联&#xff0c;修改方便&#xff09;便于持续优化&#xff08;失效率分布&#xff0c;失效率模型可重复使用&#xff09;多人同步编写&#xff08;同时操作&#xff0c;同步…...

电动汽车充换电设施可调能力聚合评估与预测 - 使用说明文档

电动汽车充换电设施可调能力聚合评估与预测 - 使用说明文档 概述 本脚本real_data_model.m基于论文《大规模电动汽车充换电设施可调能力聚合评估与预测》(鲍志远&#xff0c;胡泽春)实现了电动汽车充电设施的负荷预测和可调能力评估。使用混合模型&#xff08;LSTM神经网络线…...

Tomcat 日志体系深度解析:从访问日志配置到错误日志分析的全链路指南

一、Tomcat 核心日志文件架构与核心功能 1. 三大基础日志文件对比&#xff08;权威定义&#xff09; 日志文件数据来源核心功能典型场景catalina.out标准输出 / 错误重定向包含 Tomcat 引擎日志与应用控制台输出&#xff08;System.out/System.err&#xff09;排查 Tomcat 启…...

MSF 生成不同的木马 msfvenom 框架命令

目录 什么是 msfvenom&#xff1f; 一、针对 Windows 的木马生成命令 1. EXE 格式&#xff08;经典可执行文件&#xff09; 2. VBS 脚本&#xff08;Visual Basic Script&#xff09; 3. PowerShell 脚本 4. DLL 文件&#xff08;动态链接库&#xff09; 5. Python 脚本…...

Linux云计算训练营笔记day05(Rocky Linux中的命令:管道操作 |、wc、find、vim)

管道操作 | 作用: 将前面命令的输出&#xff0c;传递给后面命令&#xff0c;作为后面命令的参数 head -3 /etc/passwd | tail -1 取第三行 head -8 /etc/passwd | tail -3 | cat -n 取6 7 8行 ifconfig | head -2 | tail -1 只查看IP地址 ifconfig | grep 192 过滤192的ip…...

【相机标定】OpenCV 相机标定中的重投影误差与角点三维坐标计算详解

摘要&#xff1a; 本文将从以下几个方面展开&#xff0c;结合典型代码深入解析 OpenCV 中的相机标定过程&#xff0c;重点阐述重投影误差的计算方法与实际意义&#xff0c;并通过一个 calcBoardCornerPositions() 函数详细讲解棋盘格角点三维坐标的构建逻辑。 在计算机视觉领域…...

传统销售VS智能销售:AI如何重构商业变现逻辑

如今最会赚钱的企业早就不靠堆人力了&#xff0c;他们都在悄悄用AI做商业变现。当普通销售还在手动记录客户信息时&#xff0c;AI销售系统已经能实时追踪客户在商品页的停留时长&#xff0c;甚至精确到秒。 传统客服人员还在机械地复制粘贴标准话术&#xff0c;AI销售却已经能根…...

从设计到开发,原型标注图全流程标准化

一、原型标注图是什么&#xff1f; 原型标注图&#xff08;Annotated Prototype&#xff09;是设计原型&#xff08;Prototype&#xff09;的详细说明书&#xff0c;通过图文结合的方式&#xff0c;将设计稿中的视觉样式、交互逻辑、适配规则等技术细节转化为开发可理解的标准…...

Mac QT水平布局和垂直布局

首先上代码 #include "mainwindow.h" #include "ui_mainwindow.h" #include <QPushButton> #include<QVBoxLayout>//垂直布局 #include<QHBoxLayout>//水平布局头文件 MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), …...

部署Superset BI(四)连接sql server数据库

sqlserver没有出现在Superset的连接可选菜单上&#xff0c;这一点让我奇怪。既然没有那就按着HANA的配置方式&#xff0c;照猫画虎。更奇怪的是安装好还不能出现&#xff0c;难道superset和微软有仇&#xff1f; --修改配置文件 rootNocobase:/usr/superset/superset# cd docke…...

Python爬虫(22)Python爬虫进阶:Scrapy框架动态页面爬取与高效数据管道设计

目录 一、背景&#xff1a;Scrapy在现代爬虫中的核心价值二、Scrapy项目快速搭建1. 环境准备与项目初始化2. 项目结构解析 三、动态页面处理&#xff1a;集成Splash与中间件1. 配置Splash渲染服务&#xff08;Docker部署&#xff09;2. 修改settings.py启用中间件3. 在Spider中…...

全球实物文件粉碎服务市场洞察:合规驱动下的安全经济与绿色转型

一、引言&#xff1a;从纸质堆叠到数据安全的“最后一公里” 在数字化转型浪潮中&#xff0c;全球企业每年仍产生超过1.2万亿页纸质文件&#xff0c;其中包含大量机密数据、客户隐私及商业敏感信息。据QYResearch预测&#xff0c;2031年全球实物文件粉碎服务市场规模将达290.4…...

使用Python 打造多格式文件预览工具 — 图、PDF、Word、Excel 一站式查看

在日常办公或文件管理场景中&#xff0c;我们经常面临这样的问题&#xff1a;在一个文件夹中短时间内产生了大量不同类型的文件&#xff08;如图片、PDF、Word、Excel&#xff09;&#xff0c;我们需要快速浏览和筛选这些文件的内容&#xff0c;却不希望一个个打开它们。有没有…...

Microsoft 365 Copilot:为Teams在线会议带来多语言语音交流新体验

随着AI技术的飞速发展&#xff0c;Microsoft 365 Copilot将大型语言模型&#xff08;LLM&#xff09;与业务数据深度融合&#xff0c;为用户带来了前所未有的办公体验。在Teams在线会议中&#xff0c;Copilot不仅能够作为智能助手提升会议效率&#xff0c;还能通过实时辅助同声…...

c++:双向链表容器(std::list)

目录 &#x1f9f1; 一、什么是 std::list&#xff1f; ⚙️ 二、底层结构图解 &#x1f9ea; 三、list 的常见操作 &#x1f4e6; 四、完整示例代码 &#x1f4cc; 五、特点总结对比 &#x1f6e0; 六、特殊函数 &#x1f4da; 七、list 迭代器操作 ⚠️ 八、使用场景…...

jenkins 启动报错

java.lang.UnsatisfiedLinkError: /opt/application/jdk-17.0.11/lib/libfontmanager.so: libfreetype.so.6: cannot open shared object file: No such file or directory。 解决方案&#xff1a; yum install freetype-devel 安装完成之后重启jenkins。...

输入顶点坐标输出立方体长宽高的神经网络

写一个神经网络&#xff0c;我输入立方体投影线段的三视图坐标&#xff0c;输出分类和长宽高 import torch from torch import nn import torch.nn.functional as F# 假设每个视图有8个顶点&#xff0c;每个顶点有2个坐标值&#xff0c;因此每种视图有16个输入特征 input_dim…...

Layui表格行点击事件监听

​ 在 Layui 中&#xff0c;如果想监听表格行的点击事件&#xff0c;可以通过以下步骤实现&#xff1a; 初始化表格&#xff1a;首先确保你已经使用 Layui 的 table.render 方法成功渲染了你的表格。绑定行点击事件&#xff1a;Layui 并没有直接提供针对表格行点击的事件监听器…...

2025数维杯数学建模竞赛B题完整参考论文(共38页)(含模型、代码、数据)

2025数维杯数学建模竞赛B题完整参考论文 目录 摘要 一、问题重述 二、问题分析 三、模型假设 四、定义与符号说明 五、 模型建立与求解 5.1问题1 5.1.1问题1思路分析 5.1.2问题1模型建立 5.1.3问题1求解结果 5.2问题2 5.2.1问题2思路分析 5.2.2问题2…...

TCP套接字通信核心要点

TCP套接字通信核心要点 通信模型架构 客户端-服务端模型 CS架构&#xff1a;客户端发起请求&#xff0c;服务端响应和处理请求双向通道&#xff1a;建立连接后实现全双工通信 服务端搭建流程 核心步骤 创建套接字 int server socket(AF_INET, SOCK_STREAM, 0); 参数说明&am…...

Android屏蔽通话功能和短信功能

需求开发中&#xff0c;有个要求屏蔽电话功能和短信功能&#xff0c;禁止应用打电话或短信&#xff0c;禁止api开发出的应用打电话或短信。这个约束怎么做呢&#xff1f; framework/base/core/res/res/values/config.xml.....<!-- Flag indicating whether the current devi…...

STM32TIM定时中断(6)

一、TIM介绍 1、TIM简介 TIM&#xff08;Timer&#xff09;定时器 定时器的基本功能&#xff1a;定时器可以对输入的时钟进行计数&#xff0c;并在计数值达到设定值时触发中断。 即定时触发中断&#xff0c;同时也可以看出&#xff0c;定时器就是一个计数器&#xff0c;当…...

hz2新建Keyword页面

新建一个single-keywords.php即可&#xff0c;需要筛选项再建taxonomy-knowledge-category.php 参考&#xff1a;https://www.tkwlkj.com/customize-wordpress-category-pages.html WordPress中使用了ACF创建了自定义产品分类products&#xff0c;现在想实现自定义产品分类下的…...

STL?vector!!!

一、前言 之前我们借助手撕string加深了类和对象相关知识&#xff0c;今天我们将一起手撕一个vector&#xff0c;继续深化类和对象、动态内存管理、模板的相关知识 二、vector相关的前置知识 1、什么是vector&#xff1f; vector是一个STL库中提供的类模板&#xff0c;它是存储…...

Android SDK

Windows纯净卸载Android SDK 1.关闭所有安卓相关的程序 Android StudioEmulators 如模拟器Command prompts using SDK 如appium服务 2.移除SDK相关目录 # Delete your SDK directory F:\android_sdk\android-sdk-windows# Also check and remove if present: $env:LOCALAPP…...

老旧 LabVIEW 系统升级改造

在工业自动化领域&#xff0c;LabVIEW 凭借其直观的图形化编程方式和强大的数据处理能力&#xff0c;成为开发测试测量与控制系统的主流平台。然而&#xff0c;随着技术的快速迭代和业务需求的不断变化&#xff0c;许多早期开发的 LabVIEW 系统逐渐暴露出性能不足、功能缺失或兼…...

【IDEA_Maven】(进阶版)永久性的更改IDEA中每个项目所依赖的Maven默认配置文件及其仓库路径

【IDEA_Maven】永久性的更改IDEA中每个项目所依赖的Maven默认配置文件及其仓库路径 问题解决 问题 Maven使用在线导入&#xff0c;在网络不佳时&#xff0c;往往加载很慢。十分浪费时间&#xff0c;所以我们需要在maven官网找到合适版本的maven&#xff0c;将其压缩包下载下来…...

VSCode远程无法选择虚拟环境问题

1. 无法选择虚拟环境 1.先保证扩展安装正确&#xff0c; 安装python&#xff0c;pylance和intelliCode 2. 直接在设置&#xff08;ctrl shift p&#xff09;里面搜索&#xff0c;点击“Python:Select Interpreter”选项 3. 可能有人会出现第三步的问题&#xff0c;参考链接…...

七、Hadoop 历史追踪、数据安全阀与 MapReduce初体验

Hadoop 实战拾遗&#xff1a;作业历史追踪、数据安全阀与 MapReduce 巧算 π 一、追溯作业足迹&#xff1a;JobHistory Server 的配置与使用 Hadoop 集群高效运行的背后&#xff0c;离不开对已完成作业的细致分析。JobHistory Server (JHS) 就像是作业的“黑匣子”&#xff0…...

【MySQL】联合查询

个人主页&#xff1a;♡喜欢做梦 欢迎 &#x1f44d;点赞 ➕关注 ❤️收藏 &#x1f4ac;评论 目录 一、什么是联合查询 1.概念 2.语法要求 3.示例 4.为什么要使用联合查询 内连接 1.概念 2.语法 3.步骤&#xff1a; 外连接 1.概念 2.分类&#xff1a; 左外连…...

Java 原生实现代码沙箱(OJ判题系统第1期)——设计思路、实现步骤、代码实现

设计思路&#xff1a; 1、保存代码文件 ✅ 目的&#xff1a; 将用户提交的源码以字符串形式写入磁盘&#xff0c;生成 .java 文件。 &#x1f4cc; 原因&#xff1a; Java 是静态语言&#xff0c;必须先编译成 .class 文件才能运行。 需要物理文件路径来调用 javac 或使用 Java…...

课程设计。。。。

人脸考勤系统 需求分析 需求 1.实现企业日常人脸打卡需求 2.管理员要可以管理相关数据 3.可以移植到相关嵌入式设备 …..需求主要是这些&#xff0c;还可以让ai拓展一点 实现 1.介于可移植性这个需求&#xff0c;选用Qt框架&#xff0c;Qt框架跨平台性特比好&#xff0…...

gitlab相关面试题及答案

一、GitLab 基础 1. 什么是 GitLab&#xff1f;它与 GitHub 有什么区别&#xff1f; 答案&#xff1a; GitLab 是一个开源的 DevOps 平台&#xff0c;提供代码托管、CI/CD、问题跟踪等功能。与 GitHub 的主要区别&#xff1a; 开源与商业&#xff1a;GitLab 社区版开源&#x…...

『不废话』之Python 3.14 Beta版新特性

Python 3.14 的第一个Beta版已发布&#xff0c;有几个新特性可以提高我们的编码效率。 未来注释 在上一篇《『不废话』之Python高级特性技巧-CSDN博客》中提到3.7中新增了 “未来注释”&#xff0c;可以使用“from __future__ import annotations”或双引号包括的方式解决当类…...

AWS之数据分析类产品

以下是 Amazon Athena、Amazon QuickSight、AWS Lake Formation、AWS Glue、Amazon OpenSearch Service&#xff08;原 Elasticsearch Service&#xff09;、Amazon Kinesis Data Analytics 和 Amazon Redshift 的核心区别及典型使用场景的对比分析&#xff1a; 1. Amazon Athe…...

RabbitMQ消息的重复消费问题如何解决?

在RabbitMQ中&#xff0c;消息重复消费是一个常见问题&#xff0c;它通常发生在消费者处理消息时出现网络波动、节点故障或消费者自身处理逻辑异常&#xff0c;ACK 失败等情况&#xff0c;都会导致RabbitMQ 不能够正确感知消息已被成功处理&#xff0c;从而重新投递消息。以下是…...