当前位置: 首页 > news >正文

LLM应用于自动驾驶方向相关论文整理(大模型在自动驾驶方向的相关研究)

1、《HILM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving》

2023年9月发表的大模型做自动驾驶的论文,来自香港科技大学和人华为诺亚实验室(代码开源)。

论文简介:

本文提出HiLM-D方法,通过整合低分辨率推理分支(LR-RB)和高分辨率感知分支(HR-PB),解决多模态大语言模型(MLLMs)在自动驾驶任务中因低分辨率输入导致的小物体漏检和显著物体过于关注的问题。HiLM-D利用高分辨率图像提取视觉特征并增强风险区域感知,以统一模型实现风险对象定位、意图解释和运动建议生成(ROLISP任务)。实验表明,该方法在DRAMA-ROLISP数据集上显著优于现有MLLMs,Captioning的BLEU-4提升4.8%,检测mIoU提升17.2%,且模块轻量化设计支持即插即用。

2、《MotionLM: Multi-Agent Motion Forecasting as Language Modeling》

2023年9月发表,来自Waymo团队(代码开源)。

论文简介:

本文提出MotionLM,将多智能体运动预测建模为语言模型任务,通过离散化连续轨迹为运动标记,利用自回归解码生成联合分布,避免了锚点或隐变量设计。其核心创新在于以单一语言建模目标直接捕捉多智能体交互的时序因果关系,并在Waymo数据集上实现交互预测任务的SOTA性能,关键指标提升6%。实验表明,模型支持因果条件预测,且通过高频交互注意力有效减少场景冲突。

3、《BEVGPT: Generative Pretrained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning》

2023年10月发表,来自香港科技大学、同济大学和华盛顿大学等(代码非开源)。

论文简介:

这篇论文提出BEVGPT,首个基于纯鸟瞰图(BEV)输入的生成式预训练大模型,将自动驾驶的预测、决策与规划整合为统一框架。其核心创新包括:1)仅以BEV图像为输入,通过两阶段训练(预训练+在线微调)实现多任务协同,避免模块化系统的误差累积;2)采用因果Transformer自回归生成未来驾驶场景,支持长达6秒的BEV预测;3)结合最小化急动度优化的运动规划算法,保障轨迹可行性。实验表明,模型在Lyft数据集上决策指标全面领先,运动规划碰撞率显著低于基线,并在复杂交通场景下展示出长期预测鲁棒性,为自动驾驶系统一体化设计提供了新范式。

4、《GPT-DRIVER: LEARNING TO DRIVE WITH GPT》

2023年10月发表,作者来自美国USC和清华大学赵行团队(代码开源)。

论文简介:

这篇论文提出GPT-Driver,首次将GPT-3.5模型转化为自动驾驶运动规划器,核心创新在于将轨迹规划重构为语言建模问题:通过将坐标数值拆解为语言标记(如“23.17”转为“23”、“.”、“17”),利用LLM自回归生成轨迹,并设计“提示-推理-微调”三阶段策略,激发模型数值推理能力与决策透明度。实验表明,模型在nuScenes数据集上L2误差显著领先SOTA方法(3秒误差1.52m vs. 1.65m),碰撞率与基线相当,且在10%训练数据下仍保持强泛化性。其链式思维推理可输出关键障碍物分析及决策逻辑,增强可解释性,但实时性与闭环验证仍是未来改进方向。

5、《Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving》

2023年10月发表,Wayve公司(代码开源)。

论文简介:

这篇论文提出了一种新型多模态架构,将自动驾驶中的对象级向量数据与预训练大语言模型(LLM)融合,以增强场景理解和决策可解释性。研究者构建了包含16万问答对的数据集,通过强化学习(RL)专家和GPT-3.5生成驾驶控制指令及场景问答,并设计了两阶段训练策略:预训练对齐向量与语言表示,微调优化驾驶问答与动作预测。实验表明,该模型在感知推理和动作生成任务中优于传统行为克隆方法,且能生成人类可理解的决策解释,但闭环控制精度和实时性仍需改进。论文为LLM在自动驾驶中的可解释性应用提供了首个系统性框架与开源基准。

6、《LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving》

2023年10月发表,来自清华大学、香港大学和加州伯克利分校(代码非开源)。

论文简介:

这篇论文提出了一种将大型语言模型(LLM)作为自动驾驶系统核心决策组件的方法(LanguageMPC),通过设计认知推理路径将LLM的文本决策转化为数学模型参数,指导底层模型预测控制器(MPC)生成具体驾驶指令。实验表明,该方法在单车辆任务中显著降低了事故率和总体成本(如无信号交叉路口场景下总体成本降低18.1%),并能处理多车辆协同控制、文本调节驾驶风格等复杂场景。其优势在于利用LLM的常识推理能力和可解释性,解决了传统自动驾驶系统在长尾事件处理、规则泛化与透明性方面的不足,为安全、高效且可解释的自动驾驶系统提供了新思路。

7、《DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving》

2023年12月发表,来自上海AI实验室、香港中文大学、商汤科技、斯坦福大学、南京大学和清华大学(代码开源)。

论文简介:

DriveMLM提出了一种基于多模态大语言模型(LLM)的自动驾驶框架,通过将LLM的决策输出与行为规划模块的状态对齐,解决了语言决策到车辆控制的转换难题。该框架整合多模态输入(如摄像头、LiDAR、交通规则和用户指令),利用高效数据引擎生成丰富的驾驶场景标注,并在CARLA仿真环境中实现闭环驾驶。实验表明,DriveMLM在驾驶评分(76.1)和安全性(MPI 0.96)上显著优于传统方法(如Apollo),同时支持通过自然语言指令动态调整驾驶策略,并生成可解释的决策原因,为自动驾驶系统的灵活性和透明性提供了新思路。

8.《DriveLM: Driving with Graph Visual Question Answering

2023年12月发表,来自上海AI实验室(OpenDriveLab)、德国图宾根大学、图宾根AI中心和香港大学(代码开源)。

论文简介:

DriveLM提出了一种基于图视觉问答(GVQA)的端到端自动驾驶框架,通过模拟人类多步推理过程,将感知、预测、规划等任务建模为具有逻辑依赖的问答图结构。研究团队构建了DriveLM-Data数据集(涵盖nuScenes和CARLA),并开发了基于视觉语言模型(如BLIP-2)的基线模型DriveLM-Agent,利用轨迹标记和图提示策略整合多阶段推理。实验表明,该方法在nuScenes和Waymo上表现优异,尤其在零样本泛化场景下显著优于传统模型,验证了语言模型在自动驾驶中提升泛化与可解释性的潜力。研究为语言模型与自动驾驶的融合提供了新思路,但其推理效率与传感器适配仍是未来改进方向。

9、《LMDrive: Closed-Loop End-to-End Driving with Large Language Models》

23年12月发表,来自香港中文大学、商汤科技、InnoHK 感知交互智能中心、多伦多大学和上海AI实验室(代码开源)。

论文简介:

LMDrive提出了一种基于大语言模型(LLM)的闭环端到端自动驾驶框架,通过整合多模态传感器数据(摄像头、LiDAR)和自然语言指令,实现了与人类及导航软件的交互。该框架利用预训练的视觉编码器提取场景特征,并通过冻结的LLM进行指令理解和控制信号生成,解决了传统方法在长尾事件处理、语言交互和闭环执行中的不足。研究还公开了包含64K指令数据的数据集和LangAuto基准测试,实验验证了其在复杂场景下的有效性和鲁棒性,尤其在处理误导指令和多步骤指令时表现突出。该工作为语言驱动的自动驾驶研究提供了新思路与工具支持。

10、《LingoQA Visual Question Answering for Autonomous Driving》

2023年12月发表,来自Wayve公司(代码开源)。

论文简介:

这篇论文提出了LingoQA,一个用于自动驾驶的视觉问答(VQA)新基准,包含28K短视频场景和419K标注的多样化数据集,覆盖驾驶行为、场景感知与推理任务。其核心贡献是开发了Lingo-Judge评估指标,通过微调DeBERTa-V3模型实现高效自动化评估,与人类评估的Spearman相关系数达0.95,显著优于传统指标和GPT-4。作者还构建了基于Vicuna-1.5-7B的视觉语言模型基线,通过多帧视频融合和分阶段训练策略优化性能。实验表明,现有模型(如GPT-4V)在自动驾驶场景中的真实回答率(59.6%)仍远低于人类水平(96.6%),突显该基准对推动可信自动驾驶系统发展的重要性。

11、《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》

2024年2月发表,来自清华和理想汽车的论文(代码开源)。

论文简介:

这篇论文提出了一种名为DriveVLM的自动驾驶系统,通过结合视觉语言模型(VLMs)提升复杂场景理解和规划能力。其核心是通过链式推理(CoT)模块实现场景描述、分析和分层规划,并进一步提出混合系统DriveVLM-Dual,融合传统3D感知与规划模块以弥补VLMs的空间推理缺陷。实验表明,该系统在nuScenes和自建数据集SUP-AD上表现优异,尤其在长尾场景中显著优于现有方法,且DriveVLM-Dual已成功部署于实车验证,兼顾实时性与安全性。

12、《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》

2024年8月发表,来自威斯康星大学的论文(代码开源)。

论文简介:

这篇论文提出了一种结合视觉语言模型(VLM)与模型预测控制(MPC)的自动驾驶控制器VLM-MPC,通过双层异步架构实现决策与控制分离。上层VLM基于摄像头图像、环境描述和历史记忆生成动态驾驶参数,下层MPC依据参数实时调整车辆运动,兼顾车辆动力学约束。实验表明,VLM-MPC在复杂场景(如雨天、夜间)中显著提升安全性(保持碰撞后侵入时间高于安全阈值)和驾驶平顺性(降低加速度波动),并通过消融测试验证了参考记忆和环境编码器对稳定性的关键作用。该框架解决了传统VLM响应速度不足的问题,为模型推理与实时控制的融合提供了新思路。

13、《DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving》

2024年8月发表,来自哥伦比亚大学的论文(代码非开源)。

论文简介:

这篇论文提出了DriveGenVLM框架,通过去噪扩散概率模型(DDPM)生成自动驾驶场景视频,并利用视觉语言模型(EILEV)验证视频的可解释性。基于Waymo数据集的实验表明,自适应分层采样方法生成的视频在Frechet视频距离(FVD)指标上表现最优,且生成的视频可通过VLM生成场景描述,为自动驾驶的决策算法提供支持。尽管模型在复杂交通场景中仍存在挑战,但该框架展示了生成模型与视觉语言模型结合在自动驾驶领域的潜力。

14、《DriveGPT4: Interpretable End-to-End Autonomous Driving via Large Language Model》

2024年10月发表,来自香港大学、浙江大学、华为和悉尼大学(代码开源)。

论文简介:

DriveGPT4是一种基于多模态大语言模型的可解释端到端自动驾驶系统,能够通过处理多帧视频和文本输入,生成车辆行为解释并预测控制信号。通过结合定制化的视觉指令调优数据集和混合微调策略,该系统在BDD-X数据集上展现出优于现有方法的性能,并在自动驾驶任务中接近或超越GPT4-V的表现。实验表明,DriveGPT4在动作描述、推理问答及控制信号预测等任务中均表现卓越,同时具备零样本泛化能力,为可解释自动驾驶提供了新思路。

15、《Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment》

2024年10月发表,来自普渡大学和北美丰田汽车的论文(代码开源)。

论文简介:

这篇论文提出了LLM4AD框架,将大型语言模型(LLM)融入自动驾驶系统,通过自然语言交互和上下文推理增强车辆的高层决策与个性化控制。作者构建了LaMPilot-Bench基准和CARLA仿真测试,验证了LLM在指令跟随、复杂场景处理中的性能,并通过真实车辆实验展示了云端LLM(Talk2Drive)和车载视觉语言模型(VLM)在个性化驾驶中的有效性。研究同时揭示了LLM4AD面临的挑战,包括实时性延迟、安全隐私风险、模型部署复杂性及用户信任问题,为未来在安全关键场景中融合语言模型提供了理论支持和实践参考。

16、《Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving》

2024年10月发表,来自利物浦大学、华威大学和东南大学的论文(代码非开源)。

论文简介:

该论文提出了一种名为RAPID的鲁棒自适应策略融合与蒸馏框架,旨在将大型语言模型(LLM)的常识推理能力高效迁移至强化学习(RL)策略,以解决自动驾驶场景中LLM实时推理延迟和对抗攻击脆弱性的问题。RAPID通过三个核心设计实现目标:1)利用LLM生成的离线数据蒸馏专家知识至轻量级RL策略;2)引入鲁棒蒸馏机制,继承LLM的鲁棒性;3)采用混合略与在线适配器实现动态决策。实验表明,RAPID在复杂驾驶环境中显著提升了策略的实时性、泛化性和抗干扰能力,并验证了其在多场景下的高效知识迁移与适应性优化效果。

17、《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

2024年10月发表,来自华中理工和地平线的论文(代码开源)。

论文简介:

Senna提出了一种结合大型视觉语言模型(Senna-VLM)与端到端自动驾驶模型(Senna-E2E)的创新框架,通过自然语言生成高层规划决策,再由端到端模型预测精确轨迹,解决了传统方法在复杂场景中缺乏常识的问题。该系统采用多图像编码、多视角提示和规划导向的问答数据,结合三阶段训练策略,显著提升了规划性能。实验表明,Senna在nuScenes和DriveX数据集上实现了最先进的规划精度,平均规划误差降低27.12%,碰撞率减少33.33%,并展示了强大的跨场景泛化能力。研究为融合语言模型与自动驾驶提供了结构化解决方案,推动了安全性与鲁棒性的提升。

18、《HE-Drive:Human-Like End-To-End Driving With Vision Language Models》

2024年10月发表,来自地平线、香港大学、中科院大学和北京交大的论文(代码开源)。

论文简介:

HE-Drive提出了一种结合稀疏感知、扩散模型和视觉语言模型(VLM)的类人端到端自动驾驶框架,通过扩散模型生成时间一致的多模态轨迹,并利用VLM动态调整规则评分权重以提升驾驶舒适性。系统采用稀疏感知提取3D环境表示,基于条件去噪扩散模型(DDPM)生成轨迹,结合VLM的零样本推理能力优化安全与舒适性指标。实验表明,HE-Drive在nuScenes等数据集上显著降低平均碰撞率71%,运行效率提升1.9倍,并在真实场景中实现舒适度32%的提升,验证了其在复杂场景下的强泛化能力和人机协同决策的有效性。

19、《FASIONAD  FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback》

2024年11月发表,来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大(成都)、智平方科技和河南润泰数字科技的论文(代码非开源)。

论文简介:

本文提出了一种名为FASIONAD的双系统自动驾驶框架,受心理学“快与慢”认知模型启发,将驾驶决策分为快速路径和慢速路径:前者通过数据驱动实时处理常规任务,后者利用视觉语言模型(VLM)进行复杂场景的深度推理。通过动态切换机制和自适应反馈,系统在nuScenes和CARLA基准测试中显著提升了导航成功率与安全性(碰撞率降低10-15%),尤其在长尾事件中表现突出。该框架创新性地融合了高效实时响应与人类式推理,为自动驾驶系统的适应性和可解释性提供了新方向。

20、《DriveMM: All-in-One Large Multimodal Model for Autonomous Driving》

2024年12月发表,来自中山大学深圳分校和美团的论文(代码开源)。

论文简介:

DriveMM是一种面向自动驾驶的全能大型多模态模型,能够处理图像、多视角视频等多种输入,并执行感知、预测、规划等多样化任务。通过课程预训练和数据集增强标准化方法,该模型显著提升了泛化能力和多任务适应性。实验表明,DriveMM在六个公共基准测试中均达到最先进性能,并在零样本迁移任务中表现出色,为自动驾驶提供了一种高效统一的解决方案。

21、《Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving》

2024年12月发表,来自北理工的论文(代码非开源)。

论文简介:

DriveMM是一种面向自动驾驶的全能大型多模态模型,能够处理图像、多视角视频等多种输入,并执行感知、预测、规划等多样化任务。通过课程预训练和数据集增强标准化方法,该模型显著提升了泛化能力和多任务适应性。实验表明,DriveMM在六个公共基准测试中均达到最先进性能,并在零样本迁移任务中表现出色,为自动驾驶提供了一种高效统一的解决方案。

22、《VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving》

2024年12月发表,来自Wisconsin Madison分校和Purdue大学的论文(代码开源)。

论文简介:

这篇论文提出了VLM-RL框架,通过整合视觉语言模型(VLM)与强化学习(RL)解决自动驾驶中的奖励设计难题。其核心创新包括:提出对比语言目标(CLG)范式,利用正负语言描述生成语义奖励;设计分层奖励合成方法,结合语义奖励与车辆状态信息以提高稳定性;引入批量处理技术优化计算效率。实验表明,VLM-RL在CARLA模拟器中显著降低碰撞率(10.5%)、提升路线完成率(104.6%),并在未见场景中展现强泛化能力。该方法无需人工设计奖励或微调VLM,首次验证了VLM与RL在端到端自动驾驶中的可行性,为安全驾驶提供了可扩展的解决方案,但极端光照等复杂环境仍是挑战。

23、《Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs》

2024年12月发表,来自纽约stony brook大学、UIC和桑瑞思(数字化医疗科技公司)的论文(代码非开源)。

论文简介:

这篇论文提出了一种结合多模态大语言模型(LLM)与端到端自动驾驶模型的新架构,通过LLM生成高级驾驶指令(如左转、右转)来指导端到端模型输出具体动作(如方向盘和油门控制)。该方法无需微调LLM,利用提示工程技术(如思维链)降低数据需求,并通过缓存指令缓解LLM的高延迟问题。实验表明,在仅用简单场景(单个障碍物)训练后,模型在复杂真实环境(多障碍物)中的成功率显著提升(如LLaVA-LLaMA2+ViT测试成功率达83%)。主要贡献在于首次在真实闭环环境中验证了LLM增强端到端驾驶的可行性,同时通过解耦高层指令与底层控制,实现了低数据依赖和高适应性,但LLM在光照剧烈变化时仍存在局限性。

24、《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》

2024年12月发表,来自新加坡国立和浙大的论文(代码非开源)。

论文简介:

这篇论文提出了WiseAD,一种基于视觉语言模型(VLM)的知识增强端到端自动驾驶框架,通过整合广泛的驾驶知识(如场景理解、风险分析和驾驶建议)来提升轨迹规划能力。该方法基于轻量级MobileVLM模型,通过联合训练驾驶知识问答数据与轨迹规划数据,实现了知识对齐的闭环驾驶。实验表明,在CARLA模拟器中,WiseAD显著提升了驾驶评分(11.9%)和路线完成率(12.4%),同时减少了关键事故(如碰撞和闯红灯),并在零样本知识评估中优于其他VLM。核心贡献在于首次验证了深度和广度扩展的驾驶知识对自动驾驶性能的持续提升,为知识驱动的自动驾驶研究提供了新方向。

25、《SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models》

2024年12月发表,来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文(代码开源)。

论文简介:

该论文提出了SafeDrive框架,通过结合知识驱动和数据驱动方法,利用大语言模型(LLM)提升自动驾驶车辆在动态高风险场景下的决策安全性与适应性。其核心模块包括风险量化模型(全方向风险评估)、记忆模块(经验存储与检索)、LLM推理模块(上下文感知决策)和反思模块(迭代优化决策)。实验表明,该框架在高速公路、交叉路口和环岛等真实场景中实现了100%安全率及超过85%的决策与人类行为对齐,显著优于传统方法,为解决长尾事件和复杂交互场景提供了创新解决方案。

26、《VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision》

2024年12月发表,来自Cruise和美国东北大学的论文(代码非开源)。

论文简介:

这篇论文提出了一种名为VLM-AD的端到端自动驾驶方法,通过引入视觉语言模型(VLM)作为教师模型,在训练阶段生成包含非结构化推理文本和结构化动作标签的监督信号,以增强模型的驾驶决策能力。该方法无需在推理阶段依赖VLM,降低了计算成本。实验表明,VLM-AD在nuScenes数据集上显著降低了规划误差(L2误差减少14.6%-33.3%)和碰撞率(降低38.7%-57.4%),并通过消融研究验证了推理标注的关键作用。该方法为自动驾驶系统提供了更丰富的特征表达和可解释性,同时保持了实时部署的实用性。

27、《LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking》

2025年1月发表,来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文(代码非开源)。

论文简述:

LeapVAD提出了一种基于认知感知和双过程思维的自动驾驶方法,通过模拟人类注意力机制识别关键交通元素,并整合分析过程(逻辑推理)与启发式过程(快速决策)实现高效决策。其创新点包括多帧时序场景理解、高效的场景编码器检索机制,以及通过反思和记忆库实现持续学习与跨领域知识迁移。实验表明,在CARLA和DriveArena仿真平台上,LeapVAD在有限训练数据下显著优于现有方法,驾驶分数提升最高达42.6%,尤其在复杂场景中展现出强鲁棒性和泛化能力。

28、《LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models》

2025年1月发表,来自香港科技大学广州分校的论文(代码非开源)。

论文简述:

论文提出LearningFlow,一种基于多大型语言模型(LLM)代理协作的自动化策略学习框架,通过动态生成训练课程和奖励函数,解决城市自动驾驶中奖励函数手动设计复杂和样本效率低的问题。该框架结合课程强化学习(CRL),利用分析代理与生成代理的协同工作,支持实时调整训练环境与奖励机制。实验验证显示,在CARLA模拟器中,LearningFlow在多种复杂驾驶任务(如多车道超车、匝道汇入)中表现优异,成功率和泛化能力显著优于传统方法,并能适配不同强化学习算法(如PPO、DQN、SAC)。其核心贡献在于降低人工干预需求,提升策略安全性与训练效率。

29、《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning

2025年2月发表,来自中科院软件所和中科院大学的论文(代码非开源)。

论文简介:

该论文提出了Sec2DriveX框架,通过结合多模态大语言模型(MLLM)与局部场景视频、全局鸟瞰图(BEV)的联合学习,实现对长时空关系和道路拓扑的深度理解,从而提升自动驾驶的跨场景泛化能力。其创新点包括:1)构建首个面向3D空间理解与长轴任务推理的VQA驾驶指令数据集;2)设计链式推理框架,从场景理解逐步推导至行为分析、运动规划与控制信号生成,模拟人类驾驶认知过程;3)提出三阶段训练流程(混合对齐预训练、场景理解微调、端到端驾驶微调)。实验表明,Sec2DriveX在场景理解、轨迹规划等任务中性能最优,并在复杂场景下展现出强泛化性。

30、《VLM-E2E Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion》

2025年2月发表,来自香港科大广州分校、理想汽车和厦门大学的论文(代码非开源)。

论文简介:

该论文提出了一种名为VLM-E2E的端到端自动驾驶框架,通过融合视觉语言模型(VLMs)的语义理解能力与鸟瞰图(BEV)的几何特征,增强系统在复杂动态场景中的决策能力。其核心创新包括:1)利用BLIP-2生成文本描述并借助CLIP编码,提取驾驶员注意力语义;2)提出动态加权融合策略(BEV-Text),自适应平衡视觉与文本模态的贡献;3)通过语义精炼和时空建模,解决VLM的幻觉问题并提升环境表征的鲁棒性。实验表明,在nuScenes数据集上,VLM-E2E在感知(如行人检测提升24.4%)、预测(IoU提升4.47%)和规划(3秒碰撞率降至1.17%)任务中均显著优于现有方法,尤其在长期安全性与人类驾驶行为对齐方面表现突出。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

相关文章:

LLM应用于自动驾驶方向相关论文整理(大模型在自动驾驶方向的相关研究)

1、《HILM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving》 2023年9月发表的大模型做自动驾驶的论文,来自香港科技大学和人华为诺亚实验室(代码开源)。 论文简介: 本文…...

Spring MVC深度解析:从原理到实战

文章目录 一、Spring MVC概述1.1 MVC设计模式1.2 Spring MVC特点 二、Spring MVC核心组件2.1 架构流程图解2.2 核心组件说明 三、环境搭建与配置3.1 Maven依赖3.2 传统XML配置 vs JavaConfig 四、控制器开发实践4.1 基础控制器示例4.2 请求映射注解 五、数据处理与绑定5.1 表单…...

Spark学习全总结

基础概念: Spark 是一个快速、通用的大数据处理引擎,支持多种计算模式,如批处理、流处理、交互式查询和机器学习等。 特点: 速度快:基于内存计算,能将数据缓存在内存中,避免频繁读写磁盘,大幅…...

pytorch写张量pt文件,libtorch读张量pt文件

直接在pytorch中,用torch.save保存的张量,可能因格式差异无法在C中加载。 以下是一个最简单的例子,展示如何在 Pytorch中保存张量到 TorchScript 模块,并在 C 中使用 LibTorch 加载。 Python 代码 (save_tensor.py) import torc…...

关于Android Studio的Gradle各项配置2

好的!你提到的这些文件是 Gradle 构建系统 和 Android 项目 中非常重要的一部分,它们各自有不同的作用,涉及项目的构建配置、Gradle 环境、系统配置等方面。接下来我会为你详细解释每个文件的作用,并提供具体的例子和注释。 1. gr…...

Android Studio中创建第一个Flutter项目

一、Flutter环境验证 创建Flutter项目之前需要验证是否有Flutter环境,如没有Flutter 环境,请参考配置Flutter开发环境 1.1、flutter doctor 验证通过会有以下提示 [√] Flutter (Channel stable, 3.29.3, on Microsoft Windows [版本 10.0.19045.573…...

Linux的例行性工作(crontab)

crontab服务 at 命令是在指定的时间只能执行一次任务, crontab 命令可以循环重复的执行定时任务,与 Windows 中的计划任务有些类似 crond 是 Linux 下用来周期地执行某种任务或等待处理某些事件的一个守护进程,在安装完成操 作系统后,默认会安装 crond …...

03 基于 STM32 的温度控制系统

前言 Protues、KeilC 设计内容:使用STM32设计一个空调温度的显示控制系统 设计要求: 1.温度显示范围为16-30摄氏度 2.按键K1实现显示温度加1,按键K2实现显示温度减1,低于16或高于30,显示数值不变 3.正常按键蜂鸣器响一…...

23种设计模式-行为型模式之备忘录模式(Java版本)

Java 备忘录模式(Memento Pattern)详解 🧠 什么是备忘录模式? 备忘录模式是一种行为型设计模式,它允许在不暴露对象实现细节的情况下,保存和恢复对象的状态。备忘录模式常常用于需要记录对象状态以便随时…...

[三分钟]web自动化测试(二):selenium自动化测试常用函数(上)

文章目录 1.元素定位1.1 cssSelector(选择器)1.2 xpath1.3小示例 2.操作测试对象2.1点击/提交对象-click()2.2 模拟按键输入-sendKeys("")2.3 清除文本内容-clear()2.4 获取文本信息-getText()2.5 获取当前页面标题-getTitle()2.6获取当前页面URL-getCurrentUrl() 3.…...

基于ruoyi-plus实现AI聊天和绘画

项目介绍 基于ruoyi-plus实现AI聊天和绘画功能,打造自己的AI平台。前后端分离,有管理后台,用户端,小程序端。支持对接openai,讯飞星火,通义灵码,deepseek等大语言模型。项目架构 管理后台-前端&…...

假设检验学习总结

目录 一、假设检验1. 两种错误2. z检验和t检验3. t检验3.1 单样本t检验3.2 配对样本t检验3.3 独立样本t检验4 方差齐性检验备注卡方检验样本容量的计算AB测试主要的两种应用场景绝对量的计算公式率的计算公式说明一、假设检验 1. 两种错误 第一类错误 原假设为真,却拒绝了原假…...

C++ 基于多设计模式下的同步异步⽇志系统-2项目实现

⽇志系统框架设计 1.⽇志等级模块:对输出⽇志的等级进⾏划分,以便于控制⽇志的输出,并提供等级枚举转字符串功能。 ◦ OFF:关闭 ◦ DEBUG:调试,调试时的关键信息输出。 ◦ INFO:提⽰,普通的提⽰…...

Tauri窗口与界面管理:打造专业桌面应用体验 (入门系列五)

窗口管理是桌面应用的核心特性之一,良好的窗口管理可以显著提升用户体验。在Web开发中,我们通常被限制在浏览器窗口内,但Tauri允许前端开发者控制应用窗口的方方面面,从而创造出更加原生的体验。 窗口配置基础 初始窗口配置 在…...

golang goroutine(协程)和 channel(管道) 案例解析

文章目录 goroutine和channel概念开启线程与channel简单通信流程多个工作协程并发执行流程 goroutine和channel概念 goroutine(协程),一般我们常见的是进程,线程,进程可以理解为一个软件在运行执行的过程,线程跟协程比较类似&…...

底层源码和具体测试解析HotSpot JVM的notify唤醒有序性(5000字详解)

在大家的认知里,或者大家也可能搜过,notify唤醒机制到底是随机的呢?还是顺序的呢?在网上其实也有很多人说notify的唤醒机制就是随机的,但实际上并不是这样的,notify的唤醒机制是先进先出的! 目…...

Jenkins(CI/CD工具)

1. 什么是 Jenkins? Jenkins 是一个开源的持续集成(CI)和持续交付/部署(CD)工具,用于自动化软件构建、测试和部署过程。 2. Jenkins 优势 (1)开源免费:社区活跃&#…...

Apache Sqoop数据采集问题

Sqoop数据采集格式问题 一、Sqoop工作原理二、Sqoop命令格式三、Oracle数据采集格式问题四、Sqoop增量采集方案 Apache Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库&…...

再学GPIO(二)

GPIO寄存器 每个GPI/O端口有两个32位配置寄存器(GPIOx_CRL,GPIOx_CRH),两个32位数据寄存器(GPIOx_IDR和GPIOx_ODR),一个32位置位/复位寄存器(GPIOx_BSRR),一个16位复位寄存器(GPIOx_BRR)和一个32位锁定寄存器(GPIOx_LCKR)。 GPIO…...

err: Error: Request failed with status code 400

好的,今天学习ai的时候从前端发送请求,实在是想不通为啥会啥是一个坏请求,后来从前端方法一个一个找参数,传递的值都有,然后想到我这边需要传递的是一个对象,那么后端使用的RequestParam就接收不到json对象…...

解决qnn htp 后端不支持boolean 数据类型的方法。

一、背景 1.1 问题原因 Qnn 模型在使用fp16的模型转换不支持类型是boolean的cast 算子,因为 htp 后端支持量化数据类型或者fp16,不支持boolean 类型。 ${QNN_SDK_ROOT_27}/bin/x86_64-linux-clang/qnn-model-lib-generator -c ./bge_small_fp16.cpp -b …...

k8s学习记录(五):Pod亲和性详解

一、前言 上一篇文章初步探讨了 Kubernetes 的节点亲和性,了解到它在 Pod 调度上比传统方式更灵活高效。今天我们继续讨论亲和性同时Kubernetes 的调度机制。 二、Pod亲和性 上一篇文章中我们介绍了节点亲和性,今天我们讲解一下Pod亲和性。首先我们先看…...

MongoDB与PHP7的集成与优化

MongoDB与PHP7的集成与优化 引言 随着互联网技术的飞速发展,数据库技术在现代软件开发中扮演着越来越重要的角色。MongoDB作为一种流行的NoSQL数据库,以其灵活的数据模型和强大的扩展性受到众多开发者的青睐。PHP7作为当前最流行的服务器端脚本语言之一,其性能和稳定性也得…...

maven相关概念深入介绍

1. pom.xml文件 就像Make的MakeFile、Ant的build.xml一样,Maven项目的核心是pom.xml。POM(Project Object Model,项目对象模型)定义了项目的基本信息,用于描述项目如何构建,声明项目依赖,等等。…...

以科技之力,启智慧出行 —— 阅读《NVIDIA 自动驾驶安全报告》及观看实验室视频有感

作为中南民族大学通信工程专业的学生,近期研读《NVIDIA 自动驾驶安全报告》并观看其实验室系列视频后,我深刻感受到自动驾驶技术不仅是一场交通革命,更是一次社会生产力的解放与民族精神的升华。这场变革的浪潮中,我看到了科技如何…...

2P4M-ASEMI机器人功率器件专用2P4M

编辑:LL 2P4M-ASEMI机器人功率器件专用2P4M 型号:2P4M 品牌:ASEMI 封装:TO-126 批号:最新 引脚数量:3 封装尺寸:如图 特性:双向可控硅 工作结温:-40℃~150℃ 在…...

基础的贝叶斯神经网络(BNN)回归

下面是一个最基础的贝叶斯神经网络(BNN)回归示例,采用PyTorch实现,适合入门理解。 这个例子用BNN拟合 y x 噪声 的一维回归问题,输出均值和不确定性(方差)。 import torch import torch.nn a…...

小黑享受思考心流: 73. 矩阵置零

小黑代码 class Solution:def setZeroes(self, matrix: List[List[int]]) -> None:"""Do not return anything, modify matrix in-place instead."""items []m len(matrix)n len(matrix[0])for i in range(m):for j in range(n):if not m…...

整合 | 大模型时代:微调技术在医疗智能问答矩阵的实战应用20250427

🔎 整合 | 大模型时代:微调技术在医疗智能问答矩阵的实战应用 一、引言 在大模型技术高速变革的背景下,数据与微调技术不再是附属品,而是成为了AI能力深度重构的核心资产。 尤其在医疗行业中,微调技术改写了智能分诊和…...

Web安全:威胁解析与综合防护体系构建

Web安全:威胁解析与综合防护体系构建 Web安全是保护网站、应用程序及用户数据免受恶意攻击的核心领域。随着数字化转型加速,攻击手段日益复杂,防护需兼顾技术深度与系统性。以下从威胁分类、防护技术、最佳实践及未来趋势四个维度&#xff0…...

spring项目rabbitmq es项目启动命令

应该很多开发者遇到过需要启动中间件的情况,什么测试服务器挂了,服务连不上nacos了巴拉巴拉的,虽然是测试环境,但也会手忙脚乱,疯狂百度。 这里介绍一些实用方法 有各种不同的场景,一是重启,服…...

人工智能期末复习1

该笔记为2024.7出版的人工智能技术应用导论(第二版)课本部分的理论总结。 一、人工智能的产生与发展 概念:人工智能是通过计算机系统和模型模拟、延申和拓展人类智能的理论、方法、技术及应用系统的一门新的技术科学。 发展:19…...

深入理解指针(5)

字符指针变量 对下述代码进行调试 继续go,并且观察p2 弹出错误: 为什么报错呢? 因为常量字符串是不能被修改的,否则,编译器报错。 最后,打印一下: 《剑指offer》中收录了⼀道和字符串相关的笔试题&#…...

新魔百和CM311-5_CH/YST/ZG代工_GK6323V100C_2+8G蓝牙版_强刷卡刷固件包(可救砖)

新魔百和CM311-5_CH/YST/ZG代工_GK6323V100C_28G蓝牙版_强刷卡刷固件包(可救砖) 1、准备一个优盘卡刷强刷刷机,用一个usb2.0的8G以下U盘,fat32,2048块单分区格式化(强刷对&#xff…...

磁盘清理git gc

#!/bin/bash find / -type d -name “.git” 2>/dev/null | while read -r git_dir; do repo_dir ( d i r n a m e " (dirname " (dirname"git_dir") echo “Optimizing r e p o d i r " c d " repo_dir" cd " repod​ir"cd&…...

django admin AttributeError: ‘UserResorce‘ object has no attribute ‘ID‘

在 Django 中遇到 AttributeError: ‘UserResource’ object has no attribute ‘ID’ 这类错误通常是因为你在代码中尝试访问一个不存在的属性。在你的例子中,错误提示表明 UserResource 类中没有名为 ID 的属性。这可能是由以下几个原因造成的: 拼写错…...

现代Python打包工具链

现代Python打包工具如Poetry、Flit和Hatch提供了更简单、更强大的方式来管理项目依赖和打包流程。下面我将通过具体示例详细介绍这三种工具。 1. Poetry - 全功能依赖管理工具 Poetry是最流行的现代Python项目管理工具之一,它集依赖管理、虚拟环境管理和打包发布于一…...

(done) 吴恩达版提示词工程 8. 聊天机器人 (聊天格式设计,上下文内容,点餐机器人)

视频:https://www.bilibili.com/video/BV1Z14y1Z7LJ/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 别人的笔记:https://zhuanlan.zhihu.com/p/626966526 8. 聊天机器人(Chatbot) …...

Maven概述

1.maven是什么? Maven 是一个基于项目对象模型(Project Object Model,POM)概念的项目构建工具,主要用于 Java 项目的构建、依赖管理和项目信息管理。(跨平台的项目管理工具,用于构建和管理任何…...

SKLearn - Biclustering

文章目录 Biclustering (双聚类)谱二分聚类算法演示生成样本数据拟合 SpectralBiclustering绘制结果 Spectral Co-Clustering 算法演示使用光谱协同聚类算法进行文档的二分聚类 Biclustering (双聚类) 关于双聚类技术的示例。 谱…...

使用c++实现一个简易的量子计算,并向外提供服务

实现一个简易的量子计算模拟器并提供服务是一个相对复杂的过程,涉及到量子计算的基本概念、C编程以及网络服务的搭建。以下是一个简化的步骤指南,帮助你开始这个项目: 步骤 1: 理解量子计算基础 在开始编码之前,你需要对量子计算…...

京东攻防岗位春招面试题

围绕电商场景,以下是5道具有代表性的技术面试题及其解析,覆盖供应链、电商大促、红蓝对抗等场景。 《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?…...

Kafka批量消费部分处理成功时的手动提交方案

Kafka批量消费部分处理成功时的手动提交方案 当使用Kafka批量消费时,如果500条消息中只有部分处理成功,需要谨慎处理偏移量提交以避免消息丢失或重复消费。以下是几种处理方案示例: 方案1:记录成功消息并提交最后成功偏移量 Co…...

消息中间件

零、文章目录 消息中间件 1、中间件 (1)概述 中间件(Middleware)是位于操作系统、网络与数据库之上,应用软件之下的一层独立软件或服务程序,其核心作用是连接不同系统、屏蔽底层差异,并为应…...

vue3直接操作微信小程序云开发数据库,web网页对云数据库进行增删改查

我们开发好小程序以后,有时候需要编写一个管理后台网页对数据库进行管理,之前我们只能借助云开发自带的cms网页,但是cms网页设计的比较丑,工作量和代码量也不够,所以我们今天就来带大家实现用vue3编写管理后台直接管理…...

重塑编程体验边界:明基RD280U显示器深度体验

重塑编程体验边界:明基RD280U显示器深度体验 写在前面 本文将以明基RD280U为核心,通过技术解析、实战体验与创新案例,揭示专业显示器如何重构开发者的数字工作台。 前言:当像素成为生产力的催化剂 在GitHub的年度开发者调查中&…...

Linux命令-iostat

iostat 命令介绍 iostat 是一个用于监控 Linux 系统输入/输出设备加载情况的工具。它可以显示 CPU 的使用情况以及设备和分区的输入/输出统计信息,对于诊断系统性能瓶颈(如磁盘或网络活动缓慢)特别有用。 语法: iostat [options…...

Hyper-V安装Win10系统,报错“No operating system was loaded“

环境: Win10专业版 Hyper-V 问题描述: Hyper-V安装Win10系统,报错"No operating system was loaded" 已挂载ISO但仍无法启动的深度解决方案​​ 🔧如果已确认ISO正确挂载且启动顺序已调整,但虚拟机仍提…...

Zabbix

zabbix官网: https://www.zabbix.com zabbix中文操作手册:https://www.zabbix.com/documentation/5.0/zh/manual/introduction/features 1、SERVER Zabbix server 是 Zabbix 软件的核心组件。Zabbix Agent 向Zabbix server报告可用性、系统完整性信息和统计信息。…...

NEPCON China 2025 | 具身智能时代来临,灵途科技助力人形机器人“感知升级”

4月22日至24日,生产设备暨微电子工业展(NEPCON China 2025)在上海如期开展。本届展会重磅推出“人形机器人拆解展区”,汇聚35家具身智能产业链领军企业,围绕机械结构、传感器布局、驱动系统与AI算法的落地应用&#xf…...