论文速报《Enhancing Autonomous Driving Systems...:LLM-MPC混合架构增强自动驾驶》
论文链接:https://arxiv.org/pdf/2504.11514
代码链接:https://github.com/ForzaETH/LLMxRobot
0. 简介
自动驾驶领域的传统方法多依赖于数据驱动模型,通过大量标注数据训练实现路径规划和控制。然而,现实世界中道路临时施工、突发障碍物等极端场景难以完全涵盖,导致系统在特殊情况下表现不佳。与此同时,大语言模型在自然语言处理领域展现出强大的理解和推理能力,能够处理复杂指令和丰富知识推理。将LLM引入自动驾驶,尤其是本地端部署,既能利用其认知智能,又能避免云端延迟、隐私和安全隐患。
图1:所提出的增强型大型语言模型(LLM)自主驾驶系统(ADS)的示意概述。LLM使基于自然语言的人机交互(HMI)成为可能,其中DecisionxLLM阶段分析机器人状态信息,以确保与人类偏好的对齐。如果检测到不一致,DecisionxLLM将指示MPCxLLM阶段调整低级模型预测控制器(MPC)控制器的成本 J ( x , u , q ) J(x, u, q) J(x,u,q)和约束 ( X , U ) (X, U) (X,U)参数 x , u , q x, u, q x,u,q,在此过程中,MPC确保安全性和约束满足,而任务适应和决策则由LLM管理。
该论文提出的混合架构由三个核心模块组成:
- DecisionxLLM:理解人类自然语言指令,评估车辆当前状态和行为是否符合预期;
- MPCxLLM:将高层自然语言指令转化为对底层MPC控制器参数的调整建议;
- MPC控制器:基于车辆运动学模型执行具体的路径跟踪和速度控制。
1. 主要贡献
创新混合架构设计 :将LLM与MPC深度结合,通过两个协同的LLM模块(DecisionxLLM和MPCxLLM)实现从自然语言指令到具体控制参数的转换,兼顾智能决策与严格控制。
车载本地部署LLM :利用检索增强生成(RAG)、LoRA微调和模型量化等技术,优化LLM模型,使其能够在资源受限的车载硬件(例如NVIDIA Jetson Orin AGX)上高效运行,满足自动驾驶实时性需求。
提升极端场景应对能力和人机交互体验 :通过自然语言交互实现对车辆驾驶行为的灵活调整,增强系统对复杂和罕见场景的适应性,提高用户体验。
丰富的实证验证 :包括定量评估、仿真测试和1:10比例物理机器人平台实验,验证了系统在决策准确率、控制适应性和实时性能上的显著提升。
2. 相关工作
传统自动驾驶系统多采用基于感知的规划与控制方法,模型预测控制(MPC)因其对车辆动力学的良好建模和约束处理能力,被广泛应用于路径跟踪和速度控制。然而,MPC参数固定,难以灵活适应用户偏好和复杂场景变化。
近年来,LLM在自然语言理解和推理方面表现卓越,已有研究尝试将其引入机器人控制和辅助决策,但多依赖云端服务,存在通信延迟和隐私风险。此外,LLM存在生成不确定性(“幻觉”)问题,直接控制车辆存在安全隐患。
本论文基于上述背景,创新性地将LLM本地部署于车载计算单元,结合经典MPC控制器,形成高层智能指令与底层安全控制的有机融合,既利用了LLM的推理优势,也保证了MPC的实时性和安全性。
3. 核心算法与系统架构
图2:1:10比例缩放的机器人平台,使用Jetson Orin AGX作为在地面部署的LLM和ADS自主堆栈的计算执行的机载计算机(OBC)。
3.1 DecisionxLLM模块
- 功能定位:作为系统的“感知与决策中心”,DecisionxLLM模块接收人类通过自然语言下达的驾驶指令(如“请保持车道中央”或“开得更平稳”),并结合车辆传感器收集的状态数据(包括路径坐标、横向偏差、速度等时序信息),对当前车辆行为进行评估。
- 技术亮点:集成检索增强生成(RAG)机制,利用背景知识库补充上下文信息,提升模型对特定驾驶场景和安全约束的理解能力。
- 输出:判断车辆行为是否符合预期,若不符,则生成简洁的自然语言调整指令,传递给MPCxLLM模块。
图3:示意图展示了大型语言模型(LLM)的决策过程,其中它根据人类提示评估机器人数据,以实现期望的驾驶行为。LLM判断该行为是否符合预期,或建议必要的调整。
3.2 MPCxLLM模块
- 功能定位:作为高层语义理解与底层控制执行的桥梁,MPCxLLM模块接收DecisionxLLM生成的自然语言调整指令。
- 技术原理:该模块内置的LLM模型理解MPC控制器的数学结构及其可调参数(如成本函数中的权重参数、状态和输入约束集等),将抽象的驾驶行为需求转化为具体的MPC参数调整建议。
- 优势:实现了通过自然语言灵活调整车辆控制策略,且LLM推理延迟与MPC实时控制循环解耦,保证控制稳定性和安全。
图 4: MPCxLLM 架构的示意图:自然语言指令作为输入, optionally 通过 RAG 进行增强,随后由 LLM 进行处理,最终解析以提取相关参数,这些参数通过机器人操作系统 (ROS) 的动态重新配置传输给 MPC
3.3 基础MPC控制器
- 模型基础:采用车辆运动学模型,描述车辆状态(包括沿参考轨迹的弧长、横向偏差、航向角误差、速度等)随时间的演变。
- 控制目标:通过优化预测时域内的成本函数,实现路径和速度的精准跟踪,同时满足车辆动力学约束和安全约束。
- 参数可调:MPC的权重参数和约束条件由MPCxLLM模块动态调整,以适应不同驾驶风格和环境需求。
3.4 车载部署优化技术
- 检索增强生成(RAG):通过查询相关上下文信息,补充模型输入,减少对超大模型的依赖,提高小型LLM性能。
- LoRA微调:采用参数高效微调技术,利用合成数据对小型LLM进行针对性训练,提升其对机器人任务和MPC参数的理解。
- 模型量化:降低模型参数精度,显著减少内存占用和计算需求,加速推理速度,满足车载计算资源限制。
4. 实验验证
论文通过多层次实验展示了系统性能:
-
DecisionxLLM模块评估
集成RAG和LoRA微调后,基于Qwen2.5-7b模型的DecisionxLLM在判断车辆状态是否符合人类指令的准确率上,最高提升了10.45%。模型量化对性能影响甚微,验证了优化策略的有效性。 -
MPCxLLM模块控制适应性测试
在仿真环境中,不同自然语言指令驱动下,MPCxLLM成功调整MPC参数,实现了车辆行为的显著变化。与固定参数基线相比,路径跟踪和速度跟踪误差(RMSE)平均改善达52.2%。 -
物理机器人平台实测
在1:10比例的自动驾驶小车上,系统能够根据指令(如“离墙远一点”)调整行驶轨迹,遇障碍时自主倒车脱困,表现出良好的鲁棒性和实际应用潜力。 -
推理效率提升
通过模型量化,推理速度提升达10.5倍,满足自动驾驶系统对实时性的严格要求。
5. 结论
本文提出的基于车载部署大语言模型与模型预测控制器相结合的自动驾驶系统架构,有效弥补了传统数据驱动方法在复杂极端场景下的不足。通过DecisionxLLM实现对人类自然语言指令的深度理解与车辆行为评估,MPCxLLM将抽象指令转化为具体控制参数调整,保证了控制的安全性和灵活性。多种优化技术的应用使得强大的LLM能够在资源受限的车载环境中高效运行。
相关文章:
论文速报《Enhancing Autonomous Driving Systems...:LLM-MPC混合架构增强自动驾驶》
论文链接:https://arxiv.org/pdf/2504.11514 代码链接:https://github.com/ForzaETH/LLMxRobot 0. 简介 自动驾驶领域的传统方法多依赖于数据驱动模型,通过大量标注数据训练实现路径规划和控制。然而,现实世界中道路临时施工、突…...
Nacos 3.0 上线 MCP Registry,支持 MCP 服务注册到发现全流程管理
Nacos 3.0 正式版本发布啦!升级 MCP Registry,围绕着 MCP(Model Context Protocol) 服务管理,MCP 多种类型注册,包含 MCP Server 注册、编排、动态调试和管理,并且提供 Nacos-MCP-Router 可以进…...
一文解析大语言模型量化技术
目录 一、为什么需要量化技术 1、数据规模 2、32位浮点数(FP32) 3、16位浮点数(FP16) 4、Bfloat16(BF16) 5.INT8(8位整数)和INT4(4位整数) 总结&#…...
使用python实现自动化拉取压缩包并处理流程
使用python实现自动化拉取压缩包并处理流程 实现成果展示使用说明 实现成果展示 使用说明 执行./run.sh 脚本中的内容主要功能是: 1、从远程服务器上下拉制定时间更新的数据 2、将数据中的zip拷贝到指定文件夹内 3、解压后删除所有除了lcm之外的文件 4、新建一个ou…...
解构编程语言的基因密码:论数据类型如何被语言系统定义与重塑
摘要 本文从理论与实践层面系统探讨编程语言中数据类型的定义、实现与演化。通过静态与动态类型系统的差异分析,结合案例、流程图和表格,全面呈现主流语言数据类型设计特点及其对内存管理、错误防范与性能优化的影响。文章旨在为语言设计者和开发者提供…...
GRPO vs SFT:强化学习提升大模型多模态推理泛化能力的原因研究
GRPO vs SFT:强化学习提升大模型多模态推理泛化能力的原因研究 作者:吴宇斌 原文地址:https://zhuanlan.zhihu.com/p/1892362859628963761 训练目标与优化方式差异对比 监督微调(SFT)的目标: SFT使用带标注…...
从千兆到40G:飞速(FS)助力制造企业构建高可靠智能生产网络
案例亮点 部署S5850-24S2Q交换机,启用MLAG跨设备链路聚合,构建高性能冗余架构,消除单点故障风险,将网络可用性提升至99.99%,保障生产系统与全球业务连续性。采用40G光模块与US Conec MTP连接头多模跳线实现数据中心间…...
WHAT - 《成为技术领导者》思考题(第三章)
文章目录 涉及内容理解问题管理想法的交流保证质量 思考题思路和示例框架1. 观察一个你认为是领导者的人,列出他的行为,分类,并思考自己未采用的行为2. 观察一个不太像领导者的人,列出错过的简单机会,并反思3. 让别人注…...
Go 语言入门:(一) 环境安装
一、前言 这里不同于其他人的 Go 语言入门,环境安装我向来注重配置,比如依赖包、缓存的默认目录。因为前期不弄好,后面要整理又影响这影响那的,所以就干脆写成文章,方便后期捡起。 二、安装 1. 安装包 https://go.…...
GTC2025全球流量大会:领驭科技以AI云端之力,助力中国企业出海破浪前行
在全球化与数字化浪潮下,AI技术正成为中国企业出海的重要驱动力。一方面,AI通过语言处理、数据分析等能力显著提升出海企业的运营效率与市场适应性,尤其在东南亚等新兴市场展现出"高性价比场景适配"的竞争优势;另一方面…...
013几何数学——算法备赛
几何数学 平面切分 蓝桥杯2020年省赛题 问题描述 平面上有N条直线,其中第i条直线为yAxB.请计算这些直线将平面分成了几个部分? 输入 第一行输入一个N,接下来N行输入两个整数代表Ai和Bi。 1<N<10^5. 思路分析 初始时一条直线将…...
VUE3:封装一个评论回复组件
之前用React封装的评论回复组件,里面有三个主要部分:CommentComponent作为主组件,CommentItem处理单个评论项,CommentInput负责输入框。现在需要将这些转换为Vue3的组件。 Vue3和React在状态管理上有所不同,Vue3使用r…...
DELL R740服务器闪黄灯不开机故障案例
1:DELL R740服务器 2:东莞长安客户工厂晚上十一二点电路跳闸多次,导致R740 ERP服务器无法开机。 3:故障现象为:主机能正常通电,开机按钮无通电迹象,正常情况会闪绿灯慢闪,通电一会后…...
记录一下QA(from deepseek)
Q1:__init__.py文件 在 Python 中,当你在一个目录下创建 __init__.py 文件时,这个目录会被视为一个 包(Package)。包的存在使得 Python 能够通过点号(.)层级式地组织模块(.py 文件)&…...
码蹄集——进制输出、求最大公约数、最小公倍数
进制乱炖 本题考查输出的进制转换,可以直接使用c里的format格式输出 #include<iostream> #include<algorithm> #include<string> using namespace std;int main() {int x;cin>>x;printf("%d %o %x %u\n",x,x,x,x);//十进制 八进…...
从技术走向管理:带来哪些角色转变与挑战
文章目录 一、从技术到管理1、从技术转到管理的优劣势(1)优势(2)劣势 2、刚转岗容易犯的几个问题3、最大的变化:不再是一个人单打独斗4、警惕:一开始不要把“人”过早的介入到“事”5、如何完成角色的转变&…...
C语言-指针(一)
目录 指针 内存 概念 指针变量 取地址操作符(&) 操作符“ * ” 指针变量的大小 注意 指针类型的意义 作用 void * 指针 const修饰指针变量 const放在*前 const放在*后 双重const修饰 指针的运算 1.指针 - 整数 2.指针 - 指针 3.指…...
Python面试问题
一、Python 基础 1. Python 的特点 动态类型:变量无需声明类型。解释型语言:逐行解释执行。支持多种编程范式(面向对象、函数式、过程式)。 2. 列表(List)与元组(Tuple)的区别 特…...
RAG工程-基于LangChain 实现 Advanced RAG(预检索优化)
Advanced RAG 概述 Advanced RAG 被誉为 RAG 的第二范式,它是在 Naive RAG 基础上发展起来的检索增强生成架构,旨在解决 Naive RAG 存在的一些问题,如召回率低、组装 prompt 时的冗余和重复以及灵活性不足等。它重点聚焦在检索增强࿰…...
【时时三省】(C语言基础)循环结构程序设计习题1
山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 习题1 输入两个正整数m和n,求其最大公约数和最小公倍数。 解题思路: 求两个正整数 m 和 n 的最大公约数通常使用辗转相除法(欧几里得算法ÿ…...
[密码学实战]SDF之设备管理类函数(一)
[密码学实战]SDF之设备管理类函数(一) 一、标准解读:GM/T 0018-2023核心要求 1.1 SDF接口定位 安全边界:硬件密码设备与应用系统间的标准交互层功能范畴: #mermaid-svg-s3JXUdtH4erONmq9 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16p…...
CDGP|如何建立高效的数据治理团队?
近年来,数据治理行业迅速发展,越来越多的企业开始重视并投入大量资源来建立和完善数据治理体系。数据治理体系不仅能够帮助企业更好地管理和利用数据资源,提升数据质量和数据价值,还能够为企业带来竞争优势和可持续发展能力。 然…...
如何评价 DeepSeek 的 DeepSeek-V3 模型?
DeepSeek-V3 是由杭州 DeepSeek 公司于 2024 年 12 月 26 日发布的一款开源大语言模型,其性能和创新技术在国内外引起了广泛关注。从多个方面来看,DeepSeek-V3 的表现令人印象深刻,具体评价如下: 性能卓越 DeepSeek-V3 拥有 6710 …...
【基础篇】prometheus命令行参数详解
文章目录 本篇内容讲解命令行参数详解 本篇内容讲解 prometheus高频修改命令行参数详解 命令行参数详解 在页面的/页面上能看到所有的命令行参数,如图所示: 使用shell命令查看 # ./prometheus --help usage: prometheus [<flags>]The Promethe…...
SpringBoot实现接口防刷的5种高效方案详解
目录 前言:接口防刷的重要性 方案一:基于注解的访问频率限制 实现原理 核心代码实现 使用示例 优缺点分析 方案二:令牌桶算法实现限流 算法原理 核心实现 配置使用 适用场景分析 方案三:分布式限流(Redis …...
DeepSearch复现篇:QwQ-32B ToolCall功能初探,以Agentic RAG为例
DeepSearch复现篇:QwQ-32B ToolCall功能初探,以Agentic RAG为例 作者:CyPaul Space 原文地址:https://zhuanlan.zhihu.com/p/30289363967 全文阅读约3分钟~ 背景 今天看到 论文:Search-R1: Training LLMs to Reason …...
项目实战-贪吃蛇大作战【补档】
这其实算是一个补档,因为这个项目是我在大一完成的,但是当时没有存档的习惯,今天翻以前代码的时候翻到了,于是乎补个档,以此怀念和志同道合的网友一起做项目的日子 ₍ᐢ ›̥̥̥ ༝ ‹̥̥̥ ᐢ₎♡ 这里面我主要负责…...
power bi获取局域网内共享文件
power bi获取局域网内共享文件 需求: 数据源并不一定都是在本地,有可能在云端,也有可能在其他服务器,今天分享如果数据源在另外一台服务器,如何获取数据源的方法。 明确需求:需要通过PowerBI获取局域网中的…...
100%提升信号完整性:阻抗匹配在高速SerDes中的实践与影响
一个高速信号SerDes通道(例如PCIe、112G/224G-PAM4)包含了这些片段: 传输线连通孔(PTH or B/B via)连接器高速Cable锡球(Ball and Bump) 我们会希望所有的片段都可以有一致的阻抗,…...
第六章:Tool and LLM Integration
Chapter 6: Tool and LLM Integration 从执行流到工具集成:如何让AI“调用真实世界的技能”? 在上一章的执行流框架中,我们已经能让多个代理协作完成复杂任务。但你是否想过:如果用户要求“查询实时天气”或“打开网页搜索”&…...
prompt提示词编写技巧
为什么学习prompt编写 目的:通过prompt的编写,提升LLM输出相关性、准确性和多样性,并对模型输出的格式进行限制,满足我们的业务需求。 学过提示词工程的人:像“专业导演”,通过精准指令控制 AI 输出&#…...
Nginx配置SSL详解
文章目录 Nginx配置SSL详解1. SSL/TLS 基础知识2. 准备工作3. 获取SSL证书4. Nginx SSL配置步骤4.1 基础配置4.2 配置说明 5. 常见配置示例5.1 双向认证配置5.2 多域名SSL配置 6. 安全优化建议7. 故障排查总结参考资源下载验证的完整实例 Nginx配置SSL详解 1. SSL/TLS 基础知识…...
网络安全之红队LLM的大模型自动化越狱
前言 大型语言模型(LLMs)已成为现代机器学习的重要支柱,广泛应用于各个领域。通过对大规模数据的训练,这些模型掌握了多样化的技能,展现出强大的生成与理解能力。然而,由于训练数据中难以完全剔除有毒内容&…...
【技术笔记】通过Cadence Allegro创建一个PCB封装(以SOT23为例)
【技术笔记】通过Cadence Allegro创建一个PCB封装(以SOT23为例) 一、焊盘创建二、PCB封装设计三、丝印位号及标识添加 更多内容见专栏:【硬件设计遇到了不少问题】、【Cadence从原理图到PCB设计】 一、焊盘创建 首先要找到元器件的相关手册&…...
新环境注册为Jupyter 内核
1. 确认环境是否已注册为内核 在终端运行以下命令,查看所有已注册的内核: jupyter kernelspec list2. 为自定义环境注册内核 步骤 1:激活目标虚拟环境 conda activate your_env_name # 替换为你的环境名步骤 2:安装…...
[Spring] Seata详解
🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…...
使用JDK的数据校验和Spring的自定义注解校验前端传递参数的两种方法
第一种:JDK的数据校验注解 PostMapping("/test")public String test(QueryParam param, RequestHeader(value "App_key") String App_key,RequestHeader(value "App_secret") String App_secret) throws IOException {param.setApp…...
JS错误处理的新方案 (不使用try-catch)
错误处理一直是JavaScript开发者需要认真对待的问题,传统的try-catch语法虽然简单直观,但在异步代码中使用时存在诸多限制。 try-catch的局限性 传统try-catch模式在现代JavaScript开发中面临的问题: 1. 异步错误捕获的缺陷 try-catch无法…...
前端实现商品放大镜效果(Vue3完整实现)
前端实现商品放大镜效果(Vue3完整实现) 前言 在电商类项目中,商品图片的细节展示至关重要。放大镜效果能显著提升用户体验,允许用户在不跳转页面的情况下查看高清细节。本文将基于Vue3实现一个高性能的放大镜组件,完整…...
redis未授权访问漏洞学习
一、Redis常见用途 1. Redis介绍 全称与起源: Redis全称Remote Dictionary Service(远程字典服务),最初由antirez在2009年开发,用于解决网站访问记录统计的性能问题。发展历程: 从最初仅支持列表功能的内存数据库,经过十余年发展已支持多种…...
阿里qiankun微服务搭建
主服务 chat vue3 ts vite 子服务 ppt react 18 vite 子服务 agent 主服务 npm i vite-plugin-qiankun mian.ts import ./style/base.scss import virtual:svg-icons-register import { createApp } from vue import { createPinia } from piniaimport App from ./App.vue im…...
【CodeSprint】第二章-2.1 简单模拟
第二章 2.1 简单模拟 ✏️ 关于专栏:专栏用于记录 prepare for the coding test。 1. 简单模拟 简单模拟题目不需要复杂算法,直接按照题意一步步模拟即可。 1.1 促销计算 题目描述 某百货公司为了促销,采用购物打折的优惠方法:…...
Golang实现函数默认参数
golang原生不支持默认参数 在日常开发中,我们有时候需要使用默认设置,但有时候需要提供自定义设置 结构体/类,在Java我们可以使用无参、有参构造函数来实现,在PHP中我们也可以实现(如 public function xxx($isCName false, $sec…...
【Python Web开发】03-HTTP协议
文章目录 1. HTTP协议基础1.1 请求-响应模型1.2 请求方法1.3 请求和响应结构1.4 状态码 2. Python 发送 HTTP 请求2.1 urllib库2.2 requests 库 3. Python 构建 HTTP 服务器3.1 http.server模块3.2 Flask 框架 4. HTTP 协议的安全问题5. 缓存和性能优化 HTTP(Hypert…...
提高营销活动ROI:大数据驱动的精准决策
提高营销活动ROI:大数据驱动的精准决策 大家好,我是Echo_Wish。今天我们来聊聊如何通过大数据来提高营销活动的ROI(投资回报率)。我们都知道,随着市场的日益竞争,营销的成本不断增加,如何在这片红海中脱颖而出,不仅需要精准的营销策略,还需要依靠先进的技术,尤其是大…...
前端excel导出
在数据可视化和管理日益重要的今天,前端实现 Excel 导出功能已经成为众多项目中的刚需。 一、Excel 导出的常见场景 数据报表导出:在企业管理系统、数据分析平台中,用户经常需要将系统中的数据以 Excel 表格的形式导出,便于离…...
pymsql(SQL注入与防SQL注入)
SQL注入: import pymysql# 创建数据库连接 返回一个对象 conn pymysql.connect(host"localhost", # MySQL服务器地址 本地地址 127.0.0.1user"root", # 用户名 (账号)password"155480", # 密码database&qu…...
基于Springboot + vue + 爬虫实现的高考志愿智能推荐系统
项目描述 本系统包含管理员和学生两个角色。 管理员角色: 个人中心管理:管理员可以管理自己的个人信息。 高校信息管理:管理员可以查询、添加或删除高校信息,并查看高校详细信息。 学生管理:管理员可以查询、添加或…...
delphi使用sqlite3
看了一下delphi调用sqlite3最新版本的调用,网上说的都很片面,也没有完整的资料了。 我自己研究了一下,分享出来。 在调用demo中,官方也给了一个demo但是功能很少,没有参考价值。 1.定义: 首先把sqlite3…...
高压开关柜局部放电信号分析系统
高压开关柜局部放电信号分析系统 - 开发笔记 1. 项目概述 这个项目是我在2025年实现的高压开关柜局部放电信号分析系统,目的是通过采集分析局部放电信号,判断设备的工作状态和潜在故障。系统包含从信号模拟生成、特征提取、到深度学习模型训练的全流程…...